MACHINELEARNING_INTERVIEW Telegram 2155
⚡️ REFRAG: новое поколение RAG

REFRAG ускоряет работу Retrieval-Augmented Generation, сжимая контекст в chunk embeddings, сохраняя качество ответов.

📌 Результаты:

- До 30.85× быстрее первый токен

- До 16× длиннее эффективный контекст без потери точности

🔍 В чём идея:

Обычные RAG-промпты вставляют кучу текстов, половина из которых не нужна → модель тратит вычисления впустую.

REFRAG заменяет токены этих текстов кэшированными эмбеддингами, подгоняет их под размер декодера и подаёт вместе с вопросом.

Последовательность короче → внимание масштабируется по чанкам, а не по токенам → меньше памяти уходит на KV-кэш.

🎯 Как работает:

- Большинство чанков остаются сжатыми.

- Специальная политика выбирает, какие именно разжать обратно в токены, если важна точная формулировка.

- Обучение идёт в 2 шага: сначала модель учится восстанавливать токены из эмбеддингов, потом продолжается предобучение с задачей прогнозирования следующего абзаца (постепенно увеличивая размер чанков).

- Политика сжатия/разжатия тренируется через reinforcement learning, используя лосс предсказания слова как сигнал.

📄 Paper: arxiv.org/abs/2509.01092
14👍9🔥6



tgoop.com/machinelearning_interview/2155
Create:
Last Update:

⚡️ REFRAG: новое поколение RAG

REFRAG ускоряет работу Retrieval-Augmented Generation, сжимая контекст в chunk embeddings, сохраняя качество ответов.

📌 Результаты:

- До 30.85× быстрее первый токен

- До 16× длиннее эффективный контекст без потери точности

🔍 В чём идея:

Обычные RAG-промпты вставляют кучу текстов, половина из которых не нужна → модель тратит вычисления впустую.

REFRAG заменяет токены этих текстов кэшированными эмбеддингами, подгоняет их под размер декодера и подаёт вместе с вопросом.

Последовательность короче → внимание масштабируется по чанкам, а не по токенам → меньше памяти уходит на KV-кэш.

🎯 Как работает:

- Большинство чанков остаются сжатыми.

- Специальная политика выбирает, какие именно разжать обратно в токены, если важна точная формулировка.

- Обучение идёт в 2 шага: сначала модель учится восстанавливать токены из эмбеддингов, потом продолжается предобучение с задачей прогнозирования следующего абзаца (постепенно увеличивая размер чанков).

- Политика сжатия/разжатия тренируется через reinforcement learning, используя лосс предсказания слова как сигнал.

📄 Paper: arxiv.org/abs/2509.01092

BY Machine learning Interview







Share with your friend now:
tgoop.com/machinelearning_interview/2155

View MORE
Open in Telegram


Telegram News

Date: |

Step-by-step tutorial on desktop: According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously. How to Create a Private or Public Channel on Telegram? How to create a business channel on Telegram? (Tutorial)
from us


Telegram Machine learning Interview
FROM American