Telegram Web
Энтузиасты выкатили минималистичную реализацию типа vLLM под названием nano-vllm (название вдохновлено понятно кем).

Утверждается, что либа предлагает:
🚀 Скорости сопоставимые с vllm.
📖 Читаемый код.
Фишки для оптимизации/параллелизма- кэширование префикса, тензорный параллелизм, CUDA графы и прочее.

[Репка]
🔥13
Unified Scaling Laws for Compressed Representations
[Статья]

Введение

В ряде предыдущих работ (Sparsity Scaling Laws, Scaling laws for precision) было продемонстрировано, что для сжатых моделей действуют законы масштабирования, аналогичные известному принципу Шиншиллы, а влияние сжатия можно выразить через эффективное число параметров.

Однако ранее эффект мультимодального сжатия (сочетание разреженности, квантования и других методов) не исследовался систематически. Кроме того, результаты по Precision Scaling Laws были получены в довольно наивной, субоптимальной с точки зрения качества, постановке.

Эту задачу взяла на себя группа исследователей из IST Austria. В своей работе они выявили общие закономерности масштабирования для различных способов представления данных. Более того, было показано, что емкость такого представления можно выразить через способность аппроксимировать случайный гауссовский шум.
🔥7
Метод & Эксперименты

Типичный scaling law в Deep Learning имеет вид некоей зависимости Loss(N, D), где N - размер модели, D - количество сэмплов, увиденных по время обучения.

Сжатая модель в каком-то смысле эквивалентна меньшей несжатой модели. В Precision scaling laws было показано, что лосс имеет экспоненциальную зависимость от битности P - (1 - e^{-alpha P}). Причем имеет место факторизация по сжатию весов/активаций/KV-кэшей.

В данной работе подтверждают это же наблюдение. Однако для QAT используется рецепт из QuEST с Incoherence Preprocessing / маскировкой шумных градиентов, благодаря чему удается добиться значительно лучшего качества при той же степени сжатия.

Далее авторы предлагают универсальную формулу для эффективной битности представления через Gaussian MSE (GMSE) фит - ошибку при сжатии на гауссовых данных. Достоинством такого подхода является то, что он не требует никакой выборки для оценки.

Полученная зависимость хорошо ложится на эксперимент. Гауссов шум и квантизация с эквивалентной MSE дают один и тот же лосс.

Затем авторы пробуют:
💣 Спарсификацию весов и активаций
💣 Прунинг и квантизацию весов
💣 Спарсификацию и квантизацию всего и всея

Оказывается, что ошибка достаточно в широких пределах факторизуется по ошибкам индивидуальных методов сжатия.

То же самое справедливо для квантизации с “выбросами”.

Кроме того авторы перебирают разные варианты INT и FP форматов (с разными экспонентами и мантиссами). В 4-битах INT4 оказывается лучше FP4 (E2M1), а в 8 битах E4M3 / E2M5 показывают себя лучше всего.

Для повышения эффективности sparse training используют banded маскирование для градиентов (убирают самые маленькие и самые большие градиенты). И оно работает лучше наивного magnitude pruning с фиксированной маской (и RigL).

Приведенные выше эксперименты гоняли на семействе Llama-подобных моделей размером от 30M до 200M на C4 данных при фиксированном отношении числа параметров к размеру модели (N/D=100 = 5 шиншилл).

Вывод

Полезное и интересное исследование как с академической, так и практической точки зрения. Возможность оценить емкость представления через GMSE позволяет быстро проверить перспективность того или иного метода сжатия без масштабных экспериментов. И свойство факторизации ошибки при знании потенциального профита от отдельных методов сжатия дает возможность подобрать оптимальную конфигурацию.
👍10
Пользуясь случаем, заодно и приложу выступление с прошедшего ДатаФеста выступления первого автора статьи выше (@black_samorez_channel) Обучение LLM в низкой точности вычислений (речь про статьи QuEST и Quartet).
🔥9
😁8
Не так давно мы писали про MXFP/NVFP и на днях зеленые выкатили сочный блог про NVFP формат, где наглядно и подробно описывают сам формат и поясняют, чем он хорош.

По всей видимости, данный формат станет следующим шагом к снижению битности обучения/инференса у больших компаний (как наберется у бигтехов достаточно много Blackwell-ов).

[Блогпост]
🔥9
2025/07/10 09:16:05
Back to Top
HTML Embed Code: