tgoop.com/building_singularity/104
Last Update:
Будущее квантизации
Квантизация - метод сжатия моделей. Позволяет использовать модели на кратно меньшем объеме ресурсов, плюс работает быстрее относительно использования полных fp16/bf16 типов. Но это конечно не за бесплатно - качество таких моделей похуже (что не всегда критично, поэтому методы сйечас распространены и полезны).
Но
🔹 Стартапы типа Groq решают проблему ресурсов более радикально и без потерь в качестве: разрабатывают не general purpose чипы, как GPU, а специфичные для AI моделей. Боттлнеки в виде memory bandwidth, актуальные при использовании GPU, не будут проблемой в новых чипах
🔹 При обучении на большем числе токенов, модели теряют больше качества при квантизации. Их становится сложней сжимать, ведь они упаковали в себя больше знаний. И дообучение на всё больших объемах данных - очевидный тренд в AI
Из этого мне кажется, что актуальность квантизации и других методов сжатия будет убывать
Not a career advice =)
@building_singularity
