Telegram Web
RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B.

Оптимизировались на двух задачах:

Задача поиска товаров (Product Search). Пользователь пишет запрос, LLM запрос переписывает или уточняет, после чего система на основе переработанного запроса (например, через BM25) возвращает список кандидатов.

Задача последовательных рекомендаций (Sequential Recommendation). Здесь нужно предсказать следующий товар на основе истории взаимодействий пользователя (типа предыдущие покупки или что он просматривал). LLM генерирует текстовое описание, которое который пользователь скорее всего купит следующим (тут могут быть ключевые характеристики товара, тип продукта и тд).

ревард для RLя получали по метрикам от рекомендательных систем - NDCG@K, Recall@K (например тут можно подробнее про них узнать)

С RLем сильно улучшили метрички, 1 и 2 скрин.
Сравнили RL и с SFT тюнингом (данные генерили с GPT 4o конкретно под рекомендашки) и потом померили на обычных бенчах производительность.
Результы на 3 скрине. Кое-где после SFT просели результаты, с RLем вроде поровнее получилось.

Ну и у RLя результаты вроде получше получились чем у SFT на небольших тестах (4 скрин по порядку, a). И SFT на сгенерированных GPT 4о данных не превосходит просто GPT 4o на задаче. (авторы даже теоремку доказывают, что политика обученная на SFT не может быть лучше политики которой сгенерили данные. т.е. не будет в данном случае лучше 4o)
На скрине 4 b сравнивают цену и время на RL для того чтобы получить ту же производительность что у генерации данных на SFT + трен.
Ну как-то быстро конечно.

Подробнее читаем тут

Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning
https://arxiv.org/abs/2503.24289

Код тута:
https://github.com/linjc16/Rec-R1

PS все крутые статьи собираем и делаем проектики в https://www.tgoop.com/researchim
👍12🔥42😱1
Еще обзорок по тест-тайм скейлингам и мультиагентам ?

Ни слова больше

What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models
https://arxiv.org/abs/2503.24235

A Comprehensive Survey on Multi-Agent Cooperative Decision-Making: Scenarios, Approaches, Challenges and Perspectives
https://arxiv.org/abs/2503.13415
🤝9👍72
Есть такой проектик tiny-grpo от ребят из open-thoughts: https://github.com/open-thought/tiny-grpo
типа минималистичный имплемент грпо. уже давний получается, ему 3 месяца.
Но единственный пример с лламой 1б не запускался хотя бы на 24гб карте. (точнее запускается, но быстро ловит ООМ - нехватка памяти)
В нем моделька учится отрабатывать за калькулятор.

Вообще цель проекта - это проделывать свои эксперименты с грпо. Поэтому сделал форк с квантизацией и лорой + подставляю модельку от анслота (теперь она должна просто загружаться, без разрешений), чтобы хотя бы запускалось локально.

https://github.com/researchim-ai/re-tiny-grpo

мб кто-то сам хочет параметры поперебирать, улучшить (но нужна карточка на 24гб)

Кстати разные штуки делаем и собираем крутые статьи тут: https://www.tgoop.com/researchim
🔥11👍4🤔4
Тут толпа исследователей из разных компаний и универов сделалил большую обзорку по современным компонентам агентов

Обучение, ризонинги, память, world models, много про RL, реварды, действия и вызов тулов, эволюционные системы, самоулучшение, сейфти и вообще куча всего

190 страниц текста и 74 страницы ссылок

красота, стоит обратить внимание

Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems
https://arxiv.org/abs/2504.01990

Листик со ссылками
https://github.com/FoundationAgents/awesome-foundation-agents
🤯15🔥94👍43
В nature решили вспомнить про Dreamer, прикольно
https://www.nature.com/articles/d41586-025-01019-w

https://danijar.com/project/dreamerv3/

Кстати увидел, что автор пушит в репозиторий частенько и что-то обновляет даже
5👍4🥱2
Там еще один фреймворк делают чтобы ллмы RLем учить

https://github.com/agentica-project/rllm

А еще потюнили 14B модельку (из Deepseek-R1-Distilled-Qwen-14B)

DeepCoder-14B-Preview
https://huggingface.co/agentica-org/DeepCoder-14B-Preview

https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51

Во время обучения GRPO+ (взяли модификации из DAPO + пишут что убрали KL,Entropy лосы) тестили модельку юниттестами. И если во время тюна код не проходит хотя бы 1 тест, то ревард 0, а если все проходит - то 1 (так понял)

Применяли увеличение длины контекста во время трена

1.5B: 8K→16K→24K
33%→38%→43% на AIME (и типа превзошли на AIME o1-preview, их предыдущая работа)

В этой работе:
14B: 16k → 32k
54%→58% на AIME

Но при этом на евале для 14B модельки с 64к контекстом смогли получить 60.6% Pass@1 и это как o3-mini-2025-01-031 (Low) получается. (ну они пишут)

В целом я уже писал про их предыдущую работу с DeepScaler (https://www.tgoop.com/AGI_and_RL/958), тут тот же подход, но больше

PS собираемся, собираем крутые статьи и проектики делаем в https://www.tgoop.com/researchim
6👍4🤩3
На архив приедут аудио саммари
https://blog.arxiv.org/2025/04/08/arxiv-pilots-audio-summaries-in-partnership-with-sciencecast/

Пока доступны для High Energy Astrophysics только
https://arxiv.org/list/astro-ph.HE/recent

Выбираем статьи новые и слушоем 😏
Сами записи будут на сайте https://sciencecast.org/casts/ лежать
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21🤡31👍1
Учимся с GRPO генерить длинные тексты

В работе тюнят Qwen-2.5 7B-Instruct-1M и 3B.

Представим что мы хотим научить ллмку книги писать.
Вместо генерации всей книги, будем учить модель генерировать одну следующую главу, используя Story Information с предыдущей главы:

High-level story sketch — краткий план всей книги;
Previous summary — краткое содержание предыдущих глав;
Character sheets — описание ключевых персонажей;
Previous chapter — сама последняя глава;
Next chapter synopsis — краткий план следующей главы (для оценки, не для генерации).

И так как у нас GRPO, у нас есть
текущая моделька политики, которая зовется в работе reasoning-модель (πᴿ)
и генератор (πᴳ) - это reference моделька.

Сначала reasoning-модель (πᴿ) генерирует reasoning trace — рассуждения, заканчивающиеся детальным планом главы (p̂). Затем генератор (πᴳ) пишет главу на основе этого плана.

Вводят percent improvement in per-token perplexity (PPL) которая измеряет улучшение вероятности генерации правильной главы (y) при добавлении reasoning trace (плана a):

I(x, y, a) = [1 - PPL(y | x, a) / PPL(y | x)] × 100

(perplexity считается по распределнию токенов в y)
a - это план следующей главы, x - story information, y - сгенеренная глава.
Ревард на основе percent improvement смотрим на 4 скрине.

Датасет
30 книг, опубликованных в 2024+ (чтобы избежать утечек в обучении моделей); 22 книги в обучении, 4 в валидации, 4 в тесте.
Весь объем: 1000+ обучающих примеров;

Используются сводки глав, образы персонажей, предыдущие главы.

Сравнивали четыре варианта:

Base — просто генерация главы по SI.
Base-Reasoning — сначала размышляет а потом по трейсу размышлений генерит главу.
SFT — генерация после supervised-файнтюнинга на следующей главе.
RL-Trained — reasoning обучен через VR-CLI.

Оценка по критериям: сюжет, персонажи, развитие, креативность, стиль, общая предпочтительность. Работу оценивали люди через парные сравнения.

В результате имеем:
RL-trained модель - лидер почти по всем метрикам.
Особенно хорошо reasoning работает в жанре Sci-fi и Fantasy.
(3-4 скрины)

Так понял
Статью читаем, там еще куча инфы

Learning to Reason for Long-Form Story Generation
https://arxiv.org/abs/2503.22828

https://github.com/Alex-Gurung/ReasoningNCP

PS собираемся и собираем инфу по AI в https://www.tgoop.com/researchim
❤‍🔥11🔥4👏1
https://ai-2027.com/

Кто-нибудь читал? Стоит вообще открывать?
👍19👎14👀3🤔2😁1
Там кстати разрабы ARC AGI походу работают над платформой для веб-приложунек/окружений/игр
Открыли вакуху на WebGL Unity разраба
https://arcprize.org/jobs

Я считал подобную идею чтобы делать енвы в браузере уже давно хорошей. Но я как-то отстал и щас уже не знаю насколько сложные штуки может браузер тащить.

Еще в 2019 делал либку для обучения RL (там PPO норм работал только, кстати) в браузере прям с three.js и tensorflow.js . И на node js работало. Щас думаю уже не поднимется
Мотивация была такая, что типа это ж круто что можно эксперименты гонять и тренить прямо по ссылке в окошке. Все конечно немного сложнее на тот момент было)
Собирался сделать конструктор 3D енвов. До этого уже не дошло как-то
https://github.com/tokarev-i-v/rllib.js
1👍103🔥3
2025/07/13 18:28:24
Back to Top
HTML Embed Code: