Агенты ИИ | AGI_and_RL 1019

Агенты ИИ | AGI_and_RL

На архив приедут аудио саммари
https://blog.arxiv.org/2025/04/08/arxiv-pilots-audio-summaries-in-partnership-with-sciencecast/

Пока доступны для High Energy Astrophysics только
https://arxiv.org/list/astro-ph.HE/recent

Выбираем статьи новые и слушоем 😏
Сами записи будут на сайте https://sciencecast.org/casts/ лежать

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥21🤡3❤1👍1

1.61K viewsedited 11:29

Агенты ИИ | AGI_and_RL

Учимся с GRPO генерить длинные тексты

В работе тюнят Qwen-2.5 7B-Instruct-1M и 3B.

Представим что мы хотим научить ллмку книги писать.
Вместо генерации всей книги, будем учить модель генерировать одну следующую главу, используя Story Information с предыдущей главы:

High-level story sketch — краткий план всей книги;
Previous summary — краткое содержание предыдущих глав;
Character sheets — описание ключевых персонажей;
Previous chapter — сама последняя глава;
Next chapter synopsis — краткий план следующей главы (для оценки, не для генерации).

И так как у нас GRPO, у нас есть
текущая моделька политики, которая зовется в работе reasoning-модель (πᴿ)
и генератор (πᴳ) - это reference моделька.

Сначала reasoning-модель (πᴿ) генерирует reasoning trace — рассуждения, заканчивающиеся детальным планом главы (p̂). Затем генератор (πᴳ) пишет главу на основе этого плана.

Вводят percent improvement in per-token perplexity (PPL) которая измеряет улучшение вероятности генерации правильной главы (y) при добавлении reasoning trace (плана a):

I(x, y, a) = [1 - PPL(y | x, a) / PPL(y | x)] × 100

(perplexity считается по распределнию токенов в y)
a - это план следующей главы, x - story information, y - сгенеренная глава.
Ревард на основе percent improvement смотрим на 4 скрине.

Датасет
30 книг, опубликованных в 2024+ (чтобы избежать утечек в обучении моделей); 22 книги в обучении, 4 в валидации, 4 в тесте.
Весь объем: 1000+ обучающих примеров;

Используются сводки глав, образы персонажей, предыдущие главы.

Сравнивали четыре варианта:

Base — просто генерация главы по SI.
Base-Reasoning — сначала размышляет а потом по трейсу размышлений генерит главу.
SFT — генерация после supervised-файнтюнинга на следующей главе.
RL-Trained — reasoning обучен через VR-CLI.

Оценка по критериям: сюжет, персонажи, развитие, креативность, стиль, общая предпочтительность. Работу оценивали люди через парные сравнения.

В результате имеем:
RL-trained модель - лидер почти по всем метрикам.
Особенно хорошо reasoning работает в жанре Sci-fi и Fantasy.
(3-4 скрины)

Так понял
Статью читаем, там еще куча инфы

Learning to Reason for Long-Form Story Generation
https://arxiv.org/abs/2503.22828

https://github.com/Alex-Gurung/ReasoningNCP

PS собираемся и собираем инфу по AI в https://www.tgoop.com/researchim

❤‍🔥11🔥4👏1

2.12K views13:01

Агенты ИИ | AGI_and_RL

https://ai-2027.com/

Кто-нибудь читал? Стоит вообще открывать?

Ai-2027

AI 2027

A research-backed AI scenario forecast.

👍19👎14👀3🤔2😁1

1.67K views16:23

Агенты ИИ | AGI_and_RL

Там кстати разрабы ARC AGI походу работают над платформой для веб-приложунек/окружений/игр
Открыли вакуху на WebGL Unity разраба
https://arcprize.org/jobs

Я считал подобную идею чтобы делать енвы в браузере уже давно хорошей. Но я как-то отстал и щас уже не знаю насколько сложные штуки может браузер тащить.

Еще в 2019 делал либку для обучения RL (там PPO норм работал только, кстати) в браузере прям с three.js и tensorflow.js . И на node js работало. Щас думаю уже не поднимется
Мотивация была такая, что типа это ж круто что можно эксперименты гонять и тренить прямо по ссылке в окошке. Все конечно немного сложнее на тот момент было)
Собирался сделать конструктор 3D енвов. До этого уже не дошло как-то
https://github.com/tokarev-i-v/rllib.js

1👍10❤3🔥3

1.59K viewsedited 18:59

Агенты ИИ | AGI_and_RL

Что мы знаем про дифузионные LLM?
Я только то, что им теперь завезли GRPO (diffu-GRPO)

дифузионные ллмщики думали что вас не заденет? Сюдааа

d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
https://dllm-reasoning.github.io/

https://github.com/dllm-reasoning/d1

🔥16❤3🤔3👍2

1.78K views19:41

Агенты ИИ | AGI_and_RL

За последнее время выходила куча работ по ризонингам
Среди них было много по тюну 1.5B моделек.
И вот тут ребята решили заново проевалить полученные 1.5B ризонеры и сравнить с зарепорчеными авторами метриками. Ну и получилось меньше

Я вот писал про работу DeepScaler где якобы смогли получить на 1.5B модельке результаты O1-preview на AIME 2024.
В репорте там писали что на AIME 43.1% выбили https://www.tgoop.com/AGI_and_RL/958, а тут ребята намерили 37.0
Хотя из всех остальных работ именно дипскелер показывает самые большие результаты.

По остальным работам тоже можно глянуть, кому интересно.

Во-первых есть лидерборд
https://bethgelab.github.io/sober-reasoning/

Во вторых работа. Разбирают как результаты от семплинг параметров зависят, и что сильно зависят от рандом сида например. Поэтому евалить надо на разных сидах, ну и желательно не на таких маленьких датасетах как AIME 2024.

A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility
https://arxiv.org/abs/2504.07086

Код https://github.com/bethgelab/sober-reasoning

А как же тогда стартапы будут внимание привлекать, если мерить нормально будут? Авторы бы хоть подумали

PS собираемся и собираем AI статейки тута: https://www.tgoop.com/researchim

1🔥8👍6❤3😢3

1.67K viewsedited 08:14

Агенты ИИ | AGI_and_RL

Давайте составим план (предсказание) по AI до 2030 в комментариях к этому посту (жду ваших вариантов)

🤣13🥰2🐳2🤡1👻1

1.44K viewsedited 09:37

Агенты ИИ | AGI_and_RL

Какая локальная моделька лучшая для кодинга? Это прям вопрос, я сам ищу.
Я думал что может Gemma 3 27B или QwQ.

Если смотреть на ливбенч с чисто фильтром по коду, то
https://livebench.ai/#/?Coding=a

получается, что дистил R1 Qwen 32B
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

Он обходит и клода 3.7 (?)
И сильно QwQ.
Да и сам R1.
Волшебная в общем моделька получилась

Если кто-то локально разворачивает более-менее модельки большие и считает какую-то крутой, то пишите в коментах

🤨17👀9👍3🤷‍♀2🔥2😁1

2.17K viewsedited 12:03

Агенты ИИ | AGI_and_RL

Там кстати говорят что Safe Superintelligence Inc. Ильи Суцкевера оценивается в $32B

https://techcrunch.com/2025/04/12/openai-co-founder-ilya-sutskevers-safe-superintelligence-reportedly-valued-at-32b/

Вот их сайт https://ssi.inc/

В целом заслужили.

Вот список их разработок только за последний год:

😁57👏7🤣5❤1

1.78K views18:38

Агенты ИИ | AGI_and_RL

Может кому-то интересны локальные ллмки с длинными контекстами.
Нвидия потюнили лламы 3.1 8B аж до 4м контекста как они пишут.

С одной стороны это круто. С другой стороны я чот ни одной хорошей ллмки от нвидии не видел. Все что не щупал, ну оно прям чот не оч. Но времена-то меняются, да?
Самому мне негде такой контекст инферить и тестить.

Если потестите - отпишитесь в комменты пж)

Насчет русского языка - хз

Ну и если кому интересно - можно статью почитать

From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models
https://arxiv.org/abs/2504.06214

https://ultralong.github.io/

Модельки https://huggingface.co/collections/nvidia/ultralong-67c773cfe53a9a518841fbbe

PS собираемся и собираем все крутое по АИшке (и проектики делаем, да) тут https://www.tgoop.com/researchim

arXiv.org

From 128K to 4M: Efficient Training of Ultra-Long Context Large...

Long-context capabilities are essential for a wide range of applications, including document and video understanding, in-context learning, and inference-time scaling, all of which require models...

👍11🔥7❤3

1.59K viewsedited 13:39

Агенты ИИ | AGI_and_RL

В майкрософте озаботились окружением в котором модельке было бы удобнее править проекты с кодом с использованием pdb (питон дебагер)

Т.е. чтобы не просто моделька могла запускать код и смотреть на трейсы ошибок но и вызывать pdb, ставить по коду брейкпоинты и детальнее видеть как там исполнение происходит

Для ресечей пойдет (в кодовых агентах и по безопасности например)

https://microsoft.github.io/debug-gym/

https://github.com/microsoft/debug-gym

🔥10❤8👍5

1.58K viewsedited 16:53

Агенты ИИ | AGI_and_RL

Ребят, если кто смотреть будет (или смотрит)

https://www.youtube.com/watch?v=kA-P9ood-cE

напишите в коментах если чего интересного увидите

YouTube

GPT 4.1 in the API

Join Michelle Pokrass, Ishaan Singal, and Kevin Weil as they introduce and demo our new family of GPT-4.1 models in the API

💯9👍2😎1

1.46K views17:09

Агенты ИИ | AGI_and_RL

Я буду кидать очередной имплемент GRPO когда вы меньше всего этого ждете.
Я и сам не ждал

https://github.com/policy-gradient/GRPO-Zero

GitHub

GitHub - policy-gradient/GRPO-Zero: Implementing DeepSeek R1's GRPO algorithm from scratch

Implementing DeepSeek R1's GRPO algorithm from scratch - policy-gradient/GRPO-Zero

😁3👍1

1.44K views09:40

Агенты ИИ | AGI_and_RL

шьто-то пусто в коментах. Пригоршня гпт 4.1 вас не удивила?

Жду локальную модельку от ОпенАИ. Может они прям всех разорвут в опенсурсе? Хотелось бы.

😁8🤔2🤣2

1.48K views09:52

Агенты ИИ | AGI_and_RL

Не кажется ли вам, что инновации ОпенАИ как бы подсократились в последнее время?
Ресерч их как будто сжался

💯19😁16🤨7🕊2😢1

1.7K views11:09

Агенты ИИ | AGI_and_RL

Ребята из OpenPipe выкладывают Agent Reinforcement Trainer (ART)

https://github.com/OpenPipe/ART
Пишут что есть multi-turn. При этом базируются на анслот + trl.

По сути делают то же, что и мы в https://github.com/researchim-ai/re-tiny-grpo
Недавно заехал пример по трену модельки юзать калькулятор на первом шаге, а на втором просто отдавать то что посчитал калькулятор в <answer> тегах.
Multi-turn позволяет на последующих шагах трена переиспользовать например ответы из вызванных инструментов на предыдущих шагах.
Работаю над новыми примерами сейчас. Название чуть позже обновится думаю) Это тоже штука планируется для агентских задач.

Все по ИИшечке собираем и проектики делаем в https://www.tgoop.com/researchim

GitHub

GitHub - OpenPipe/ART: Agent Reinforcement Trainer for training multi-turn agents using GRPO

Agent Reinforcement Trainer for training multi-turn agents using GRPO - OpenPipe/ART

✍10🤔4👍3

1.55K views12:47

2025/07/13 09:27:12
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>