Приближаем сингулярность@building

Приближаем сингулярность

SparseGPT: сжатие 175B модели в 2 раза без потери в качестве

Для широкого распространения моделей и последующих инноваций важно, чтобы модель можно было запустить ~~на любом чайнике~~ не имея 8xA100 GPU. Ещё желательно, чтобы эта сжатая модель работала так же хорошо, как и исходная.

Типичные способы достигнуть этого: дистилляция в меньшую модель-ученика, квантизация (например, преобразование весов и активаций в int8), прунинг (выкидывание части весов)

В статье предлагают метод прунинга, который
- работает на очень больших моделях
- позволяет сжать в 2 раза без потери в perplexity (левый график)
- не требует дообучения
- локальный, то есть работает с отдельными матрицами весов
- за 4 часа сжимает 175B модель

Также их метод умеет в structural sparsity - когда зануляются не произвольные веса, а согласно некоторому правилу. Например, 2:4 паттерн - в последовательных блоках из 4 элементов 2 элемента нули. Тензорные ядра в A100 работают с такими матрицами в 2 раза быстрее.

На правом графике видно, что чем больше модель, тем лучше она сжимается. Интересно, какая настоящая размерность числа параметров у этих сетей, если отбросить все лишнее 🤔

Подробности в статье

🔥10👍5❤1

www.tgoop.com/building_singularity/32

677 viewsJan 7, 2023 at 13:05

tgoop.com/building_singularity/32

Create: 2023-01-07
Last Update: 2025-10-26 04:46:52

BY Приближаем сингулярность

Share with your friend now:
tgoop.com/building_singularity/32

Telegram News

SparseGPT: сжатие 175B модели в 2 раза без потери в качестве