Агенты ИИ | AGI_and_RL 1068

Агенты ИИ | AGI_and_RL

Ребятки разбираются что дают SFT vs RL для ризонинга в VLMках

Сначала взяли уже существующие датасеты картиночно-текстовые и по ним нагенерировали датасеты с трейсами для SFT и RL с дипсиком R1 и GPTшкой верифицировали. Генерили 2 сета один для SFT с трейсами размышлений, второй чисто для RL. SFT сет еще подразбивали на отдельные подмножества с aha моментами и на разные количества.
Вообще получается, что у нас все сеты учебные нагенерены R1, потом почищены и перегенерены GPTшками, т.е. уже синтетические. Считаю важно отметить, ведь это может афектить на результат.

Список изначальных датасетов по которым генерировали трейсы кстати в карточке прописаны:
https://huggingface.co/datasets/UCSC-VLAA/VLAA-Thinking

Тестились на других (на первом скрине).

Нашли что в SFT сетах возникают как их назвали "псевдо-aha" моменты и "псевдоризонинговые" трейсы . aha это что-то вроде "опапа я тут косячнул, сейчас переделаю" Там бывают неправильные рассуждения или просто лишняя или нерелевантная информация, которая наоборот должна мешать. Ну и авторы пишут что такие трейсы дропают метрики.

Кстати aha-трейсы авторы детектили по словам: wait, again, double-check, hmm, mistake, alternatively, check, i should confirm.

Реварды для GRPO использовали как на правилах. так и ревард модельку подключали.

Тюнили Qwen VL 2, 2.5 модельки.

Что увидели

просто SFT: ухудшает работу модельки. Причем чем больше SFT тем хуже. на 25к данных ухудшается на 32%, при 126к - на 47% в среднем. SFT с aha-моментами тоже роняет производительность. Дроп был как на 3B, так и на 7B модельке.
Смотрим на 1 скрине, на некоторых тестовых сетах вообще дроп до 99.7% бывает.

Применение SFT перед RL: также ухудшает результаты. Кстати, выросли реварды на RL после SFT меньше, чем без него, хотя стартовали выше (моделька скорее всего уже что-то подучила через SFT, что сразу помогает получше отвечать). 2 скрин

Просто RL: ну тут просто рост и кайф.

Так понял.

Вообще очень интересно, что RL дает буст, а SFT может подпортить малинку.
Почему так? 😑
Мне кажется что вклад некачественных синтетических SFT трейсов точно есть.

SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models
https://arxiv.org/abs/2504.11468
https://www.alphaxiv.org/ru/overview/2504.11468

https://ucsc-vlaa.github.io/VLAA-Thinking/

https://github.com/UCSC-VLAA/VLAA-Thinking

заходи в https://www.tgoop.com/researchim (мы там всякое делаем и ai статейки собираем)

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤5🔥2🤔1

2.15K viewsedited 15:21

Агенты ИИ | AGI_and_RL

Из вчерашнего релиза ОпенАИ имеем революционные и рекордные o3 и o4-mini ну и они выпустили кодового агента https://github.com/openai/codex Но я пока все же на курсоре останусь

Кстати, пишите в коментах какими модельками пользуетесь больше всего?

В курсоре клод 3.7
в чатгпт - 4.5 и 4o

Есть ли среди нас фанаты гигачата и яндекс гпт?
Или может локальные?

✍2🤔1👌1

1.41K viewsedited 13:08

Агенты ИИ | AGI_and_RL

Photo

Вчера еще собирался вот это к посту прикрепить (в иксе авторов взял)
Но забыл.
RL типа вот такой сильный крутой дракон, а остальные вот ну глупые кароч.

🔥11😁9🤗2

1.61K views13:13

Агенты ИИ | AGI_and_RL

Ребятки, на https://www.alphaxiv.org/ приехал o4-mini
Напоминаю, что это как соцсеть по архиву и там можно чатиться с ллмками по архивным статьям

🔥24❤1👍1

1.78K viewsedited 14:47

Агенты ИИ | AGI_and_RL

Еще один крутецкий момент на https://www.alphaxiv.org/

Там есть не только сами статьи, но и вкладка Blog, а на ней показывается сгенеренный по статье обзор-объяснение.
Если зашли на Blog и там овервьюшки нету - нажимаете Generate Overview и оно начинает генерироваться.
Вот например для статьи про которую писал нажал сгенерить обзор: https://www.alphaxiv.org/ru/overview/2504.11468
И оно сгенерило причем доступны были обзоры сразу на 4х языках в том числе и на русском. Хотя статья новая, к ней обзора до меня получается не генерили (походу настолько она интересная 😕)

Но для других старых статей например только на английском сгенерилось: https://www.alphaxiv.org/overview/2402.05290
Пока не знаю почему 🤷‍♂️
UPD: на всех языках сгенерелись, видать просто подождать надо! https://www.alphaxiv.org/ru/overview/2402.05290

А кроме обзора можно и с ллмкой пообщаться.
Крч пришло время вспомнить про старые статьи в которых хотелось разобраться и это теперь очень легко

Если сами сгенерите обзоры к статьям - кидайте ссылочки в коменты!

PS а еще заходите в https://www.tgoop.com/researchim мы там полезное по иишечке собираем

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥17👍6🥰5

1.67K viewsedited 07:45

Агенты ИИ | AGI_and_RL

Forwarded from Love. Death. Transformers.

Superhuman vending bot

Агенту дают 500usd, автомат на три лотка, чаржат по 2usd в день за использование автомата, а еще 3 тулa:
- посмотреть информацию о субагенте
- выдать задачу субагенту
- спросить что то субагента

Субагенты в свою очередь могут собрать деньги из автомата, положить новые товары, установить цены и тд.

В чем цель? Наторговать на максимальный обьем денег.

Крайне любопытная работа и бенчмарк, ознакомьтесь

paper

🔥17❤1👍1

1.29K views08:52

Агенты ИИ | AGI_and_RL

Добро пожаловать в эру обучения на опыте (от Дэвида Сильвера и Ричарда Саттона)

Мол хорошие данные полученные от людей к концу подходят. Сейчас будем RL с LLMами накручивать, чтобы они больше могли исследовать и сами учиться.

*Иишки обученные на знаниях от людей знают только эти знания, а как новые получать?
*ИИшка будет меньше опираться на получение информации от людей и больше выуживать ее из среды с которой взаимодействует.
Например награду и возможные действия Иишка будет больше доставать из среды и опыта взаимодействия с ней.
*Обучение будет происходить все время "жизни" иишки.

У RLя есть проблемы и сейчас хорошее время попробовать решить их заново.
С теми же ревардами. В некоторых хороших задачах их можно определить и агент по ним научится делать полезные вещи. Но в большинстве задач построить реварды которые бы привели к нахождению решения трудно.
Вспомним про тот же Human Feedback, который нужен чтобы учить модельки быть приятными и послушными, и хорошо инструкциям следовали.
Может ли ллмка сама для любой задачи разработать систему наград которая бы позволила эффективно найти решение для новой незнакомой задачи? Я думаю, что нет, хотя и не проверял.
(ну разве что o3 и o4-mini смогут 😎)

Вопросов и проблем множество.

Определенно прогресс есть, но достаточен ли он и как быстро будет двигаться? Следим за ситуацией

статью читаем

И не забудьте ваше мнение в комментариях оставить

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13🔥12❤4🤔2👎1

1.71K views12:38

Агенты ИИ | AGI_and_RL

Несколько дней не видел обзорок по тест тайм скейлингам, RLям, CoT, агентам и вот этому всему. (выходные же были) Даже как-то не по себе начало становиться 😰

Но ребята исправляют ситуацию. И кстати понравилось, качественная работа
Много красивых графичков, табличек, карт и прочего. Подсобрали статьи в том числе и свежайшие

жостко читаем

Generative AI Act II: Test Time Scaling Drives Cognition Engineering
https://arxiv.org/abs/2504.13828
https://github.com/GAIR-NLP/cognition-engineering

PS и приходите в https://www.tgoop.com/researchim другие статейки читать и проектики делать

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3🔥2🤔2

1.81K viewsedited 09:33

Агенты ИИ | AGI_and_RL

Forwarded from AbstractDL

This media is not supported in your browser

VIEW IN TELEGRAM

RL не развивает потенциал рассуждений LLM (by Tsinghua)

RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии.

Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений.

Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно!

Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений.

Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений.

Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток.

Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы.

Статья, GitHub

🔥17😱10😭6❤2

1.31K views13:11

Агенты ИИ | AGI_and_RL

AbstractDL

RL не развивает потенциал рассуждений LLM (by Tsinghua) RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой…

RL В С Ё 😕

Кстати я эту статью в https://www.tgoop.com/researchim еще с утра положил и вы могли ее еще раньше там прочитать) заходите

Please open Telegram to view this post

VIEW IN TELEGRAM

ресечим/делаем (c) AI

чтобы ресечить

🔥11❤5🤝2💊1

2.03K viewsedited 13:11

Агенты ИИ | AGI_and_RL

👍26😁14🤣4💯2

1.82K views07:34

Агенты ИИ | AGI_and_RL

Forwarded from AI[ex]Time (Alex Golubev)

Давно как-то не доходили руки ничего написать в канал: то по работе дела, то статей интересных не было в моменте, то просто не хотелось. Тем не менее за месяц вышел ряд работ, которые мне показались интересными, с некоторых из них и начнем.

ByteDance (TikTok) представила две статьи по RL тюнингу моделей, а именно вариации GRPO: DAPO и VAPO. Интересны они тем, что авторы детально рассматривают детали реализации GRPO и смотрят на моменты, которые можно улучшить, например:

- Известно, что если делать большое кол-во шагов подитераций в PPO мы быстро начнем выходить за 1+eps (eps = 0.2 по дефолту), из-за чего градиент на данных семплах будет зануляться ⇒ обучение становится менее эффективным. Авторы поизучали этот вопрос и советуют клипать значения с двух сторон с разными epsilon. На эту тему есть еще одна интересная работа, где авторы смотрели на сценарий очень большого кол-во подтиреций внутри PPO-like лосса: TOPR.
- Рассматривается вопрос о том, в каком порядке лучше усреднять лосс внутри батча, тк это может повлиять на вклад траекторий разной длины. Это очень важный вопрос в агентских системах, когда есть траектории, содержащие в себе длинные шаги, ошибки, дебаг, а есть те, которые решают задачу буквально за несколько шагов.
- В VAPO главным моментом изучения стала модель-критик для оценки Advantage с помощью GAE. В GRPO и прочих методах одним из приятных преимуществ перед PPO было то, что не приходится учить отдельную модель, а Advantage мы оценивали как r_i - mean(r) по группе, где r_{1..n} - решения одной конкретной задачки. VAPO делает шаг назад и смотрит на то, как все-таки использовать критика для более эффективного обучения. Немного про это писал в посте про сам GRPO.

Все это замеряется на Qwen2.5-32B на задаче AIME 2024 и сравнивается с DeepSeek-R1-Zero-Qwen-32B.

В общем, это чисто технические статьи, которые будут интересны довольно узкому кругу. Совсем недавно ByteDance выпустил собственную 200B модель Seed-Thinking-v1.5, где в частности применили эти алгоритмы на последней стадии.

1.65K views18:16

Агенты ИИ | AGI_and_RL

https://theaidigest.org/time-horizons

Кому экспоненту?

Этот тренд был обнаружен исследователями из METR. Они взяли самых способных агентов за период с 2019 по 2025 год и протестировали их на около 200 задачах — в основном задачах по программированию, а также на некоторых задачах общего рассуждения.

Затем они сравнили процент успешных решений агентов с длительностью каждой задачи — то есть с тем, сколько времени требуется профессионалам-людям на её выполнение. Время варьировалось от менее 30 секунд до более 8 часов.

По всем протестированным моделям проявились две чёткие закономерности:

- Длительность задачи сильно коррелирует с успешностью агента (R² = 0.83)  
- Временной горизонт — продолжительность задач, с которыми агенты справляются в 50% случаев — растёт экспоненциально

1🥱14👍7🔥2👏1🌚1

1.88K views18:59

Агенты ИИ | AGI_and_RL

Тут подумали что можно для ризонинговых моделек после основного промта добавлять

<|beginning of thinking|>
Okay, I think I have finished thinking.
<|end of thinking|>

Делается это уже от роли ассистента (т.е. как моделька бы генерила ризонинг мы уже от нее дописываем), и моделька продолжит генерить уже ответ.
Теги заменяем на специфичные для модельки как я понимаю.
И потестили на DeepSeek-R1-Distill-Qwen 32B с тегами <think></think>. Результы на картиночках.

Так можно пробовать экономить токены и результы на некоторых бенчах получаются сопоставимые или лучше.
Еще при тех же количествах токенов на pass@k даже иногда лучше работает. И может быть интересным при тест-тайм скейлинге например.

Reasoning Models Can Be Effective Without Thinking
https://www.arxiv.org/abs/2504.09858
https://www.alphaxiv.org/ru/overview/2504.09858

🤯14👍1🤔1

2.37K views12:05

Агенты ИИ | AGI_and_RL

Ох уж эти вычислительно-оптимальные БЯМ 😏

Compute-Optimal LLMs Provably Generalize Better With Scale
https://arxiv.org/abs/2504.15208
https://www.alphaxiv.org/ru/overview/2504.15208

Please open Telegram to view this post

VIEW IN TELEGRAM

😢11😁4👍1

1.78K views13:11

2025/07/12 10:00:15
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>