Энтузиасты выкатили минималистичную реализацию типа vLLM под названием nano-vllm (название вдохновлено понятно кем).
Утверждается, что либа предлагает:
🚀 Скорости сопоставимые с vllm.
📖 Читаемый код.
⚡ Фишки для оптимизации/параллелизма- кэширование префикса, тензорный параллелизм, CUDA графы и прочее.
[Репка]
Утверждается, что либа предлагает:
🚀 Скорости сопоставимые с vllm.
📖 Читаемый код.
⚡ Фишки для оптимизации/параллелизма- кэширование префикса, тензорный параллелизм, CUDA графы и прочее.
[Репка]
🔥13
Unified Scaling Laws for Compressed Representations
[Статья]
Введение
В ряде предыдущих работ (Sparsity Scaling Laws, Scaling laws for precision) было продемонстрировано, что для сжатых моделей действуют законы масштабирования, аналогичные известному принципу Шиншиллы, а влияние сжатия можно выразить через эффективное число параметров.
Однако ранее эффект мультимодального сжатия (сочетание разреженности, квантования и других методов) не исследовался систематически. Кроме того, результаты по Precision Scaling Laws были получены в довольно наивной, субоптимальной с точки зрения качества, постановке.
Эту задачу взяла на себя группа исследователей из IST Austria. В своей работе они выявили общие закономерности масштабирования для различных способов представления данных. Более того, было показано, что емкость такого представления можно выразить через способность аппроксимировать случайный гауссовский шум.
[Статья]
Введение
В ряде предыдущих работ (Sparsity Scaling Laws, Scaling laws for precision) было продемонстрировано, что для сжатых моделей действуют законы масштабирования, аналогичные известному принципу Шиншиллы, а влияние сжатия можно выразить через эффективное число параметров.
Однако ранее эффект мультимодального сжатия (сочетание разреженности, квантования и других методов) не исследовался систематически. Кроме того, результаты по Precision Scaling Laws были получены в довольно наивной, субоптимальной с точки зрения качества, постановке.
Эту задачу взяла на себя группа исследователей из IST Austria. В своей работе они выявили общие закономерности масштабирования для различных способов представления данных. Более того, было показано, что емкость такого представления можно выразить через способность аппроксимировать случайный гауссовский шум.
🔥7
Метод & Эксперименты
Типичный scaling law в Deep Learning имеет вид некоей зависимости
Сжатая модель в каком-то смысле эквивалентна меньшей несжатой модели. В Precision scaling laws было показано, что лосс имеет экспоненциальную зависимость от битности P - (
В данной работе подтверждают это же наблюдение. Однако для QAT используется рецепт из QuEST с Incoherence Preprocessing / маскировкой шумных градиентов, благодаря чему удается добиться значительно лучшего качества при той же степени сжатия.
Далее авторы предлагают универсальную формулу для эффективной битности представления через Gaussian MSE (GMSE) фит - ошибку при сжатии на гауссовых данных. Достоинством такого подхода является то, что он не требует никакой выборки для оценки.
Полученная зависимость хорошо ложится на эксперимент. Гауссов шум и квантизация с эквивалентной MSE дают один и тот же лосс.
Затем авторы пробуют:
💣 Спарсификацию весов и активаций
💣 Прунинг и квантизацию весов
💣 Спарсификацию и квантизацию всего и всея
Оказывается, что ошибка достаточно в широких пределах факторизуется по ошибкам индивидуальных методов сжатия.
То же самое справедливо для квантизации с “выбросами”.
Кроме того авторы перебирают разные варианты INT и FP форматов (с разными экспонентами и мантиссами). В 4-битах INT4 оказывается лучше FP4 (E2M1), а в 8 битах E4M3 / E2M5 показывают себя лучше всего.
Для повышения эффективности sparse training используют banded маскирование для градиентов (убирают самые маленькие и самые большие градиенты). И оно работает лучше наивного magnitude pruning с фиксированной маской (и RigL).
Приведенные выше эксперименты гоняли на семействе Llama-подобных моделей размером от 30M до 200M на C4 данных при фиксированном отношении числа параметров к размеру модели (
Вывод
Полезное и интересное исследование как с академической, так и практической точки зрения. Возможность оценить емкость представления через GMSE позволяет быстро проверить перспективность того или иного метода сжатия без масштабных экспериментов. И свойство факторизации ошибки при знании потенциального профита от отдельных методов сжатия дает возможность подобрать оптимальную конфигурацию.
Типичный scaling law в Deep Learning имеет вид некоей зависимости
Loss(N, D)
, где N - размер модели, D - количество сэмплов, увиденных по время обучения. Сжатая модель в каком-то смысле эквивалентна меньшей несжатой модели. В Precision scaling laws было показано, что лосс имеет экспоненциальную зависимость от битности P - (
1 - e^{-alpha P})
. Причем имеет место факторизация по сжатию весов/активаций/KV-кэшей. В данной работе подтверждают это же наблюдение. Однако для QAT используется рецепт из QuEST с Incoherence Preprocessing / маскировкой шумных градиентов, благодаря чему удается добиться значительно лучшего качества при той же степени сжатия.
Далее авторы предлагают универсальную формулу для эффективной битности представления через Gaussian MSE (GMSE) фит - ошибку при сжатии на гауссовых данных. Достоинством такого подхода является то, что он не требует никакой выборки для оценки.
Полученная зависимость хорошо ложится на эксперимент. Гауссов шум и квантизация с эквивалентной MSE дают один и тот же лосс.
Затем авторы пробуют:
💣 Спарсификацию весов и активаций
💣 Прунинг и квантизацию весов
💣 Спарсификацию и квантизацию всего и всея
Оказывается, что ошибка достаточно в широких пределах факторизуется по ошибкам индивидуальных методов сжатия.
То же самое справедливо для квантизации с “выбросами”.
Кроме того авторы перебирают разные варианты INT и FP форматов (с разными экспонентами и мантиссами). В 4-битах INT4 оказывается лучше FP4 (E2M1), а в 8 битах E4M3 / E2M5 показывают себя лучше всего.
Для повышения эффективности sparse training используют banded маскирование для градиентов (убирают самые маленькие и самые большие градиенты). И оно работает лучше наивного magnitude pruning с фиксированной маской (и RigL).
Приведенные выше эксперименты гоняли на семействе Llama-подобных моделей размером от 30M до 200M на C4 данных при фиксированном отношении числа параметров к размеру модели (
N/D=100
= 5 шиншилл). Вывод
Полезное и интересное исследование как с академической, так и практической точки зрения. Возможность оценить емкость представления через GMSE позволяет быстро проверить перспективность того или иного метода сжатия без масштабных экспериментов. И свойство факторизации ошибки при знании потенциального профита от отдельных методов сжатия дает возможность подобрать оптимальную конфигурацию.
👍10
Пользуясь случаем, заодно и приложу выступление с прошедшего ДатаФеста выступления первого автора статьи выше (@black_samorez_channel) Обучение LLM в низкой точности вычислений (речь про статьи QuEST и Quartet).
🔥9
Не так давно мы писали про MXFP/NVFP и на днях зеленые выкатили сочный блог про NVFP формат, где наглядно и подробно описывают сам формат и поясняют, чем он хорош.
По всей видимости, данный формат станет следующим шагом к снижению битности обучения/инференса у больших компаний (как наберется у бигтехов достаточно много Blackwell-ов).
[Блогпост]
По всей видимости, данный формат станет следующим шагом к снижению битности обучения/инференса у больших компаний (как наберется у бигтехов достаточно много Blackwell-ов).
[Блогпост]
🔥9