MACHINELEARNING_INTERVIEW Telegram 2176
🧠 Для многих AI-моделей узким местом становится не вычислительная мощность, а **память**.

Сегодня большие языковые модели тормозят не из-за нехватки FLOPs, а из-за памяти:
- чем длиннее контекст, тем больше растёт KV cache (ключи и значения токенов),
- данные приходится постоянно хранить и перегонять,
- у GPU вычисления быстрые, но пропускная способность памяти ограничена.

Новый метод XQuant предлагает интересное решение:

* Что делает XQuant**
Вместо того чтобы хранить Key и Value,, метод сохраняет только X - входной вектор активации слоя (то, что подаётся в слой до вычисления Q, K, V).

⚡️Этот X:
- меньше по размеру,
- лучше сжимается (легко квантовать до низких бит).

При генерации следующего токена K и V не берутся из памяти, а пересчитываются из X через те же самые матричные умножения.

При генерации токенов Keys и Values просто пересчитываются из X.

Это дает:
✔️ Экономию памяти в 2 раза
✔️ Точность модели почти без потерь качесва

XQuant-CL - это улучшенная версия
- Хранит только небольшие разницы между слоями, так как они очень похожи.
- Экономия достигает 10–12.5x.
- Потеря качества минимальна: всего 0.01–0.1 perplexity.

➡️ Результаты
- В 10–12.5 раз меньше памяти, чем FP16
- Точность близка к FP16
- Превосходит лучшие методы квантования KV cache

XQuant превращает задачу: из «таскаем огромный KV-кэш» в ▶️«храним компактный X и пересчитываем нужное заново».

Современные GPU умеют считать быстрее, чем работать с памятью.
Поэтому лучше чуть больше считать, но значительно меньше хранить.

📌 Подробнее: https://arxiv.org/abs/2508.10395
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2011🥰3👏1



tgoop.com/machinelearning_interview/2176
Create:
Last Update:

🧠 Для многих AI-моделей узким местом становится не вычислительная мощность, а **память**.

Сегодня большие языковые модели тормозят не из-за нехватки FLOPs, а из-за памяти:
- чем длиннее контекст, тем больше растёт KV cache (ключи и значения токенов),
- данные приходится постоянно хранить и перегонять,
- у GPU вычисления быстрые, но пропускная способность памяти ограничена.

Новый метод XQuant предлагает интересное решение:

* Что делает XQuant**
Вместо того чтобы хранить Key и Value,, метод сохраняет только X - входной вектор активации слоя (то, что подаётся в слой до вычисления Q, K, V).

⚡️Этот X:
- меньше по размеру,
- лучше сжимается (легко квантовать до низких бит).

При генерации следующего токена K и V не берутся из памяти, а пересчитываются из X через те же самые матричные умножения.

При генерации токенов Keys и Values просто пересчитываются из X.

Это дает:
✔️ Экономию памяти в 2 раза
✔️ Точность модели почти без потерь качесва

XQuant-CL - это улучшенная версия
- Хранит только небольшие разницы между слоями, так как они очень похожи.
- Экономия достигает 10–12.5x.
- Потеря качества минимальна: всего 0.01–0.1 perplexity.

➡️ Результаты
- В 10–12.5 раз меньше памяти, чем FP16
- Точность близка к FP16
- Превосходит лучшие методы квантования KV cache

XQuant превращает задачу: из «таскаем огромный KV-кэш» в ▶️«храним компактный X и пересчитываем нужное заново».

Современные GPU умеют считать быстрее, чем работать с памятью.
Поэтому лучше чуть больше считать, но значительно меньше хранить.

📌 Подробнее: https://arxiv.org/abs/2508.10395

BY Machine learning Interview






Share with your friend now:
tgoop.com/machinelearning_interview/2176

View MORE
Open in Telegram


Telegram News

Date: |

Concise Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. How to create a business channel on Telegram? (Tutorial) You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether. The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins.
from us


Telegram Machine learning Interview
FROM American