NN_FOR_SCIENCE Telegram 2522
EfficientLLM: короткий разбор

Исследователи прогнали 100+ конфигураций LLM/VLM и мерили не только качество, но и память, задержку и энергию. Универсального победителя нет: выбирайте технику под свой главный bottleneck — VRAM, латентность, энергия или метрики.

Я люблю исследования, где считают не мифические FLOPs, а как это реально выглядит на проде. Здесь так и сделали: сравнили виды внимания (память против качества), позиционирование (удобство длинного контекста против скорости), MoE (экономия вычислений, но дороже по памяти), способы дообучения (LoRA-семейство, RSLoRA, заморозка слоёв) и квантизацию вплоть до int4.

Главные выводы:
Если упираетесь в память/скорость — варианты внимания с «меньше ключей/голов» дают ощутимую экономию VRAM и времени отклика.
Если нужна максимальная точность - берите более «тяжёлые» варианты внимания и RoPE; цена - ресурсы.
MoE поднимает качество при той же «активной» вычислительной цене, но потребует больше VRAM и усложнит прод.
Файнтюнинг: на маленьких моделях (≈1–3B) практичнее LoRA-семейство; на крупных (≈14B+) чаще выигрывает RSLoRA. Для быстрых итераций заморозка слоёв даёт кратный прирост скорости.
Инференс: пост-квантизация в int4 - серьезный буст по $/Вт/ГБ с небольшой просадкой качества. Если не хотите терять точность, bf16 обычно приятнее fp16 на современных GPU.

Шпаргалка на завтра
• Мало VRAM → «экономное» внимание + относительные позиции, тюним LoRA, пробуем int4.
• Качество first → «точное» внимание + RoPE, RSLoRA; инференс bf16.
• Уперлись в compute → смотрим MoE, но заранее считаем VRAM и сложность.
• Нужны быстрые циклы → временно freeze, затем переключаемся на LoRA/RSLoRA.

Ваш ход: что болит сильнее - память, задержка, энергия или качество? Напишите в комментах свой кейс, а если пост был полезен — поделитесь с коллегами 🙌

Статья
🔥18👍85



tgoop.com/nn_for_science/2522
Create:
Last Update:

EfficientLLM: короткий разбор

Исследователи прогнали 100+ конфигураций LLM/VLM и мерили не только качество, но и память, задержку и энергию. Универсального победителя нет: выбирайте технику под свой главный bottleneck — VRAM, латентность, энергия или метрики.

Я люблю исследования, где считают не мифические FLOPs, а как это реально выглядит на проде. Здесь так и сделали: сравнили виды внимания (память против качества), позиционирование (удобство длинного контекста против скорости), MoE (экономия вычислений, но дороже по памяти), способы дообучения (LoRA-семейство, RSLoRA, заморозка слоёв) и квантизацию вплоть до int4.

Главные выводы:
Если упираетесь в память/скорость — варианты внимания с «меньше ключей/голов» дают ощутимую экономию VRAM и времени отклика.
Если нужна максимальная точность - берите более «тяжёлые» варианты внимания и RoPE; цена - ресурсы.
MoE поднимает качество при той же «активной» вычислительной цене, но потребует больше VRAM и усложнит прод.
Файнтюнинг: на маленьких моделях (≈1–3B) практичнее LoRA-семейство; на крупных (≈14B+) чаще выигрывает RSLoRA. Для быстрых итераций заморозка слоёв даёт кратный прирост скорости.
Инференс: пост-квантизация в int4 - серьезный буст по $/Вт/ГБ с небольшой просадкой качества. Если не хотите терять точность, bf16 обычно приятнее fp16 на современных GPU.

Шпаргалка на завтра
• Мало VRAM → «экономное» внимание + относительные позиции, тюним LoRA, пробуем int4.
• Качество first → «точное» внимание + RoPE, RSLoRA; инференс bf16.
• Уперлись в compute → смотрим MoE, но заранее считаем VRAM и сложность.
• Нужны быстрые циклы → временно freeze, затем переключаемся на LoRA/RSLoRA.

Ваш ход: что болит сильнее - память, задержка, энергия или качество? Напишите в комментах свой кейс, а если пост был полезен — поделитесь с коллегами 🙌

Статья

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2522

View MORE
Open in Telegram


Telegram News

Date: |

Hashtags On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information. To delete a channel with over 1,000 subscribers, you need to contact user support “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. 2How to set up a Telegram channel? (A step-by-step tutorial)
from us


Telegram AI для Всех
FROM American