Агенты ИИ | AGI_and_RL 1020

Reinforcement Learning: An Overview
https://arxiv.org/abs/2412.05265

Вышла вторая версия овервьюшки по RL (современному), теперь 177 страничек (было 144)

Reinforcement Learning: A Comprehensive Overview
https://arxiv.org/abs/2412.05265v2

arXiv.org

Reinforcement Learning: An Overview

This manuscript gives a big-picture, up-to-date overview of the field of (deep) reinforcement learning and sequential decision making, covering value-based methods, policy-based methods,...

🔥19👍12✍5🏆1

5.74K viewsedited 17:59

Агенты ИИ | AGI_and_RL

Тут автор рассказывает про свои эксперименты с ллм и GRPO для улучшения алгоритмов сортировки

https://hrishbh.com/ai-as-algorithm-designer-teaching-llms-to-improve-sorting-through-trial-and-error-in-grpo/

PS подобные штуки мы собираем в https://www.tgoop.com/researchim

ресечим/делаем (c) AI

чтобы ресечить

👍6

2.59K views16:02

Агенты ИИ | AGI_and_RL

чатгпт сделал нам отличную шпору по рлю. изучаем
На английском конечно же намного лучше получается
Агрея, стодание, полеход - каждый должен знать, это база

😁44🥰7🤩6

3.15K viewsedited 16:57

Агенты ИИ | AGI_and_RL

Кстати листик с MCP серверами, думаю пригодятся
https://github.com/punkpeye/awesome-mcp-servers

GitHub

GitHub - punkpeye/awesome-mcp-servers: A collection of MCP servers.

A collection of MCP servers. Contribute to punkpeye/awesome-mcp-servers development by creating an account on GitHub.

👍7🔥4🥰2

2.61K views10:25

Агенты ИИ | AGI_and_RL

Коротенькая выжимка на английском по отличиям обжективов в алгоритмах REINFORCE, ReMax, RLOO, PPO, GRPO, Dr. GRPO
https://lancelqf.github.io/note/llm_post_training/

lancelqf.github.io

From REINFORCE to Dr. GRPO

A Unified Perspective on LLM Post-training

❤12👍2🥰1

1.92K views19:59

Агенты ИИ | AGI_and_RL

Здесь автор пилит UI-шку для экспериментов с обычным рлем

https://github.com/dvalenciar/ReinforceUI-Studio

дока тут https://docs.reinforceui-studio.com/welcome

Мне показалось прикольным, хз почему раньше уишку никто не сделал, это может быть реально удобным для ознакомления

👍12🔥9❤3

2K views20:03

Агенты ИИ | AGI_and_RL

Тут кстати есть довольно свежии лекции по квантовым алгоритмам

https://www.cs.umd.edu/~amchilds/qa/

🔥17👍4✍2

1.88K views14:17

Агенты ИИ | AGI_and_RL

RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B.

Оптимизировались на двух задачах:

Задача поиска товаров (Product Search). Пользователь пишет запрос, LLM запрос переписывает или уточняет, после чего система на основе переработанного запроса (например, через BM25) возвращает список кандидатов.

Задача последовательных рекомендаций (Sequential Recommendation). Здесь нужно предсказать следующий товар на основе истории взаимодействий пользователя (типа предыдущие покупки или что он просматривал). LLM генерирует текстовое описание, которое который пользователь скорее всего купит следующим (тут могут быть ключевые характеристики товара, тип продукта и тд).

ревард для RLя получали по метрикам от рекомендательных систем - NDCG@K, Recall@K (например тут можно подробнее про них узнать)

С RLем сильно улучшили метрички, 1 и 2 скрин.
Сравнили RL и с SFT тюнингом (данные генерили с GPT 4o конкретно под рекомендашки) и потом померили на обычных бенчах производительность.
Результы на 3 скрине. Кое-где после SFT просели результаты, с RLем вроде поровнее получилось.

Ну и у RLя результаты вроде получше получились чем у SFT на небольших тестах (4 скрин по порядку, a). И SFT на сгенерированных GPT 4о данных не превосходит просто GPT 4o на задаче. (авторы даже теоремку доказывают, что политика обученная на SFT не может быть лучше политики которой сгенерили данные. т.е. не будет в данном случае лучше 4o)
На скрине 4 b сравнивают цену и время на RL для того чтобы получить ту же производительность что у генерации данных на SFT + трен.
Ну как-то быстро конечно.

Подробнее читаем тут

Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning
https://arxiv.org/abs/2503.24289

Код тута:
https://github.com/linjc16/Rec-R1

PS все крутые статьи собираем и делаем проектики в https://www.tgoop.com/researchim

👍12🔥4❤2😱1

4.63K viewsedited 19:41

Агенты ИИ | AGI_and_RL

Еще обзорок по тест-тайм скейлингам и мультиагентам ?

Ни слова больше

What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models
https://arxiv.org/abs/2503.24235

A Comprehensive Survey on Multi-Agent Cooperative Decision-Making: Scenarios, Approaches, Challenges and Perspectives
https://arxiv.org/abs/2503.13415

arXiv.org

A Survey on Test-Time Scaling in Large Language Models: What, How,...

As enthusiasm for scaling computation (data and parameters) in the pretraining era gradually diminished, test-time scaling (TTS), also referred to as ``test-time computing'' has emerged as a...

🤝9👍7❤2

1.69K views12:52

Агенты ИИ | AGI_and_RL

Есть такой проектик tiny-grpo от ребят из open-thoughts: https://github.com/open-thought/tiny-grpo
типа минималистичный имплемент грпо. уже давний получается, ему 3 месяца.
Но единственный пример с лламой 1б не запускался хотя бы на 24гб карте. (точнее запускается, но быстро ловит ООМ - нехватка памяти)
В нем моделька учится отрабатывать за калькулятор.

Вообще цель проекта - это проделывать свои эксперименты с грпо. Поэтому сделал форк с квантизацией и лорой + подставляю модельку от анслота (теперь она должна просто загружаться, без разрешений), чтобы хотя бы запускалось локально.

https://github.com/researchim-ai/re-tiny-grpo

мб кто-то сам хочет параметры поперебирать, улучшить (но нужна карточка на 24гб)

Кстати разные штуки делаем и собираем крутые статьи тут: https://www.tgoop.com/researchim

GitHub

GitHub - open-thought/tiny-grpo: Minimal hackable GRPO implementation

Minimal hackable GRPO implementation. Contribute to open-thought/tiny-grpo development by creating an account on GitHub.

🔥11👍4🤔4

1.92K views17:22

Агенты ИИ | AGI_and_RL

Тут толпа исследователей из разных компаний и универов сделалил большую обзорку по современным компонентам агентов

Обучение, ризонинги, память, world models, много про RL, реварды, действия и вызов тулов, эволюционные системы, самоулучшение, сейфти и вообще куча всего

190 страниц текста и 74 страницы ссылок

красота, стоит обратить внимание

Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems
https://arxiv.org/abs/2504.01990

Листик со ссылками
https://github.com/FoundationAgents/awesome-foundation-agents

🤯15🔥9⚡4👍4❤3

4.84K views13:16

Агенты ИИ | AGI_and_RL

В nature решили вспомнить про Dreamer, прикольно
https://www.nature.com/articles/d41586-025-01019-w

https://danijar.com/project/dreamerv3/

Кстати увидел, что автор пушит в репозиторий частенько и что-то обновляет даже

Nature

AI masters Minecraft: DeepMind program finds diamonds without being taught

Nature - The Dreamer system reached the milestone by ‘imagining’ the future impact of possible decisions.

❤5👍4🥱2

1.96K viewsedited 17:20

Агенты ИИ | AGI_and_RL

Раз уж за дример пошло, то недавно натыкался на реп где чел реимплементнул его

https://github.com/InexperiencedMe/NaturalDreamer

GitHub

GitHub - InexperiencedMe/NaturalDreamer: Simplest and Cleanest DreamerV3 implementation out there

Simplest and Cleanest DreamerV3 implementation out there - InexperiencedMe/NaturalDreamer

🔥6❤5😁1

1.97K views17:30

Агенты ИИ | AGI_and_RL

Там еще один фреймворк делают чтобы ллмы RLем учить

https://github.com/agentica-project/rllm

А еще потюнили 14B модельку (из Deepseek-R1-Distilled-Qwen-14B)

DeepCoder-14B-Preview
https://huggingface.co/agentica-org/DeepCoder-14B-Preview

https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51

Во время обучения GRPO+ (взяли модификации из DAPO + пишут что убрали KL,Entropy лосы) тестили модельку юниттестами. И если во время тюна код не проходит хотя бы 1 тест, то ревард 0, а если все проходит - то 1 (так понял)

Применяли увеличение длины контекста во время трена

1.5B: 8K→16K→24K
33%→38%→43% на AIME (и типа превзошли на AIME o1-preview, их предыдущая работа)

В этой работе:
14B: 16k → 32k
54%→58% на AIME

Но при этом на евале для 14B модельки с 64к контекстом смогли получить 60.6% Pass@1 и это как o3-mini-2025-01-031 (Low) получается. (ну они пишут)

В целом я уже писал про их предыдущую работу с DeepScaler (https://www.tgoop.com/AGI_and_RL/958), тут тот же подход, но больше

PS собираемся, собираем крутые статьи и проектики делаем в https://www.tgoop.com/researchim

✍6👍4🤩3

1.68K viewsedited 16:45

2025/07/13 18:13:48
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>