MACHINELEARNING_INTERVIEW Telegram 2178
🧠 Для многих AI-моделей узким местом становится не вычислительная мощность, а **память**.

Сегодня большие языковые модели тормозят не из-за нехватки FLOPs, а из-за памяти:
- чем длиннее контекст, тем больше растёт KV cache (ключи и значения токенов),
- данные приходится постоянно хранить и перегонять,
- у GPU вычисления быстрые, но пропускная способность памяти ограничена.

Новый метод XQuant предлагает интересное решение:

* Что делает XQuant**
Вместо того чтобы хранить Key и Value,, метод сохраняет только X - входной вектор активации слоя (то, что подаётся в слой до вычисления Q, K, V).

⚡️Этот X:
- меньше по размеру,
- лучше сжимается (легко квантовать до низких бит).

При генерации следующего токена K и V не берутся из памяти, а пересчитываются из X через те же самые матричные умножения.

При генерации токенов Keys и Values просто пересчитываются из X.

Это дает:
✔️ Экономию памяти в 2 раза
✔️ Точность модели почти без потерь качесва

XQuant-CL - это улучшенная версия
- Хранит только небольшие разницы между слоями, так как они очень похожи.
- Экономия достигает 10–12.5x.
- Потеря качества минимальна: всего 0.01–0.1 perplexity.

➡️ Результаты
- В 10–12.5 раз меньше памяти, чем FP16
- Точность близка к FP16
- Превосходит лучшие методы квантования KV cache

XQuant превращает задачу: из «таскаем огромный KV-кэш» в ▶️«храним компактный X и пересчитываем нужное заново».

Современные GPU умеют считать быстрее, чем работать с памятью.
Поэтому лучше чуть больше считать, но значительно меньше хранить.

📌 Подробнее: https://arxiv.org/abs/2508.10395
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2011🥰3👏1



tgoop.com/machinelearning_interview/2178
Create:
Last Update:

🧠 Для многих AI-моделей узким местом становится не вычислительная мощность, а **память**.

Сегодня большие языковые модели тормозят не из-за нехватки FLOPs, а из-за памяти:
- чем длиннее контекст, тем больше растёт KV cache (ключи и значения токенов),
- данные приходится постоянно хранить и перегонять,
- у GPU вычисления быстрые, но пропускная способность памяти ограничена.

Новый метод XQuant предлагает интересное решение:

* Что делает XQuant**
Вместо того чтобы хранить Key и Value,, метод сохраняет только X - входной вектор активации слоя (то, что подаётся в слой до вычисления Q, K, V).

⚡️Этот X:
- меньше по размеру,
- лучше сжимается (легко квантовать до низких бит).

При генерации следующего токена K и V не берутся из памяти, а пересчитываются из X через те же самые матричные умножения.

При генерации токенов Keys и Values просто пересчитываются из X.

Это дает:
✔️ Экономию памяти в 2 раза
✔️ Точность модели почти без потерь качесва

XQuant-CL - это улучшенная версия
- Хранит только небольшие разницы между слоями, так как они очень похожи.
- Экономия достигает 10–12.5x.
- Потеря качества минимальна: всего 0.01–0.1 perplexity.

➡️ Результаты
- В 10–12.5 раз меньше памяти, чем FP16
- Точность близка к FP16
- Превосходит лучшие методы квантования KV cache

XQuant превращает задачу: из «таскаем огромный KV-кэш» в ▶️«храним компактный X и пересчитываем нужное заново».

Современные GPU умеют считать быстрее, чем работать с памятью.
Поэтому лучше чуть больше считать, но значительно меньше хранить.

📌 Подробнее: https://arxiv.org/abs/2508.10395

BY Machine learning Interview






Share with your friend now:
tgoop.com/machinelearning_interview/2178

View MORE
Open in Telegram


Telegram News

Date: |

Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.” The SUCK Channel on Telegram, with a message saying some content has been removed by the police. Photo: Telegram screenshot. 3How to create a Telegram channel? For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data. You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether.
from us


Telegram Machine learning Interview
FROM American