MACHINELEARNING_INTERVIEW Telegram 2154
⚡️ REFRAG: новое поколение RAG

REFRAG ускоряет работу Retrieval-Augmented Generation, сжимая контекст в chunk embeddings, сохраняя качество ответов.

📌 Результаты:

- До 30.85× быстрее первый токен

- До 16× длиннее эффективный контекст без потери точности

🔍 В чём идея:

Обычные RAG-промпты вставляют кучу текстов, половина из которых не нужна → модель тратит вычисления впустую.

REFRAG заменяет токены этих текстов кэшированными эмбеддингами, подгоняет их под размер декодера и подаёт вместе с вопросом.

Последовательность короче → внимание масштабируется по чанкам, а не по токенам → меньше памяти уходит на KV-кэш.

🎯 Как работает:

- Большинство чанков остаются сжатыми.

- Специальная политика выбирает, какие именно разжать обратно в токены, если важна точная формулировка.

- Обучение идёт в 2 шага: сначала модель учится восстанавливать токены из эмбеддингов, потом продолжается предобучение с задачей прогнозирования следующего абзаца (постепенно увеличивая размер чанков).

- Политика сжатия/разжатия тренируется через reinforcement learning, используя лосс предсказания слова как сигнал.

📄 Paper: arxiv.org/abs/2509.01092
14👍9🔥5



tgoop.com/machinelearning_interview/2154
Create:
Last Update:

⚡️ REFRAG: новое поколение RAG

REFRAG ускоряет работу Retrieval-Augmented Generation, сжимая контекст в chunk embeddings, сохраняя качество ответов.

📌 Результаты:

- До 30.85× быстрее первый токен

- До 16× длиннее эффективный контекст без потери точности

🔍 В чём идея:

Обычные RAG-промпты вставляют кучу текстов, половина из которых не нужна → модель тратит вычисления впустую.

REFRAG заменяет токены этих текстов кэшированными эмбеддингами, подгоняет их под размер декодера и подаёт вместе с вопросом.

Последовательность короче → внимание масштабируется по чанкам, а не по токенам → меньше памяти уходит на KV-кэш.

🎯 Как работает:

- Большинство чанков остаются сжатыми.

- Специальная политика выбирает, какие именно разжать обратно в токены, если важна точная формулировка.

- Обучение идёт в 2 шага: сначала модель учится восстанавливать токены из эмбеддингов, потом продолжается предобучение с задачей прогнозирования следующего абзаца (постепенно увеличивая размер чанков).

- Политика сжатия/разжатия тренируется через reinforcement learning, используя лосс предсказания слова как сигнал.

📄 Paper: arxiv.org/abs/2509.01092

BY Machine learning Interview







Share with your friend now:
tgoop.com/machinelearning_interview/2154

View MORE
Open in Telegram


Telegram News

Date: |

It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. 6How to manage your Telegram channel? When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. How to create a business channel on Telegram? (Tutorial)
from us


Telegram Machine learning Interview
FROM American