MACHINELEARNING_INTERVIEW Telegram 2172
🚀 Unsloth показал, как динамическая квантизация (Dynamic GGUFs) может радикально ускорить и облегчить работу LLM, не теряя качество.

В чём суть
Обычные методы квантизации уменьшают разрядность весов модели одинаково для всех слоёв.
Unsloth пошёл дальше: каждому слою подбирается своё число бит.
- Ключевые слои → 6–8 бит (чтобы сохранить точность).
- Второстепенные → 1–3 бита (для максимального сжатия).

Результаты, которых удалось добиться:
- 671B DeepSeek-V3.1: сжатие модели с 671GB до 192GB (–75%).
- 1-бит версия уже обгоняет GPT-4.1 и GPT-4.5 в «no-thinking» задачах.
- 3-бит версия превосходит Claude-4-Opus в «thinking» задачах.
- 5-бит версия догоняет и стабильно держит уровень SOTA.

🟢Почему это интересно:
- Сжатие → модели становятся доступнее для запуска на меньших GPU.
- Качество не падает, а иногда даже растёт за счёт умного распределения битности.
- Тесты на Aider Polyglot benchmark показывают лучшие результаты среди существующих quant-моделей.

🟢Итог
Dynamic GGUF от Unsloth — это не просто ещё один способ «урезать» модель, а технология, которая делает триллионные LLM компактными, быстрыми и при этом сверхточными.

Пост: https://docs.unsloth.ai/basics/unsloth-dynamic-ggufs-on-aider-polyglot

#Unsloth #LLM #Quantization #AI #AiderPolyglot
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍51



tgoop.com/machinelearning_interview/2172
Create:
Last Update:

🚀 Unsloth показал, как динамическая квантизация (Dynamic GGUFs) может радикально ускорить и облегчить работу LLM, не теряя качество.

В чём суть
Обычные методы квантизации уменьшают разрядность весов модели одинаково для всех слоёв.
Unsloth пошёл дальше: каждому слою подбирается своё число бит.
- Ключевые слои → 6–8 бит (чтобы сохранить точность).
- Второстепенные → 1–3 бита (для максимального сжатия).

Результаты, которых удалось добиться:
- 671B DeepSeek-V3.1: сжатие модели с 671GB до 192GB (–75%).
- 1-бит версия уже обгоняет GPT-4.1 и GPT-4.5 в «no-thinking» задачах.
- 3-бит версия превосходит Claude-4-Opus в «thinking» задачах.
- 5-бит версия догоняет и стабильно держит уровень SOTA.

🟢Почему это интересно:
- Сжатие → модели становятся доступнее для запуска на меньших GPU.
- Качество не падает, а иногда даже растёт за счёт умного распределения битности.
- Тесты на Aider Polyglot benchmark показывают лучшие результаты среди существующих quant-моделей.

🟢Итог
Dynamic GGUF от Unsloth — это не просто ещё один способ «урезать» модель, а технология, которая делает триллионные LLM компактными, быстрыми и при этом сверхточными.

Пост: https://docs.unsloth.ai/basics/unsloth-dynamic-ggufs-on-aider-polyglot

#Unsloth #LLM #Quantization #AI #AiderPolyglot

BY Machine learning Interview




Share with your friend now:
tgoop.com/machinelearning_interview/2172

View MORE
Open in Telegram


Telegram News

Date: |

The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon. ‘Ban’ on Telegram The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be: As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces.
from us


Telegram Machine learning Interview
FROM American