Telegram Web
Один раз исследователи не написали обзорку по агентам, больше их никто не видел

Эти написали. И в основном они из salesforce (они иногда очень прикольные вещи делают 🥰)
обозреваем

A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems
https://arxiv.org/abs/2504.09037
Please open Telegram to view this post
VIEW IN TELEGRAM
64🤔2
Forwarded from Альберт Ф
так смешнее
😁37👍6🤣3😢1
Forwarded from AI для Всех (Artemii)
Genius: Когда языковая модель начинает учиться сама

Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика. Просто — 25 000 обычных вопросов. А она сама начинает думать лучше.

Это не фантастика. Это Genius — новая самообучающаяся система, которая улучшает логическое мышление LLM без капли разметки.

Почему это вообще возможно?

Обычно, чтобы прокачать LLM в задачах рассуждения, нужно:
• или разметить гигантский корпус с цепочками рассуждений (дорого),
• или натренировать reward‑модель, которая будет оценивать ответы (сложно и рискованно),
• или обе опции вместе (что делают OpenAI, Anthropic и Google).

Genius идёт другим путём. Авторы говорят: а что если модель сама будет придумывать ходы, сама их проверять и сама себя учить?

Как это работает?

Ключевой приём — Stepwise Foresight Re-sampling:
1. Модель отвечает не сразу — а по шагам.
2. На каждом шаге она пробует несколько вариантов следующего действия.
3. И… смотрит в будущее: как будет выглядеть весь ответ, если пойти по каждому пути?
4. Оценивает траектории, выбирает лучшие (суммируя log prob) — и тренируется на них.

Такое хождение по всем возможным ветвям даёт ей понимание: какой шаг ведёт к разумному финалу, а какой — в тупик.

Но есть проблема: оценки могут быть шумными. Иногда «плохой» шаг случайно выглядит хорошим. Чтобы не начать учиться на ошибках, в игру вступает второй приём — Advantage-Calibrated Optimization:
• Он сравнивает не только “награду” текущего шага, но и то, насколько он лучше предыдущего.
• Если “плохой” шаг оказался неожиданно полезным — штраф за него снижается.
• Это делает обучение более устойчивым, без переобучения на случайные успехи.

А теперь самое интересное — результаты.
• Всего 25 000 обычных вопросов (без ответов!) дали +7 pp к точности рассуждений на бенчмарках вроде GSM8K, ReClor и AIME 2024.
• Работает на LLaMA3.1, Qwen2.5, и вообще без привязки к архитектуре.
• Не ломает базовые знания: на MMLU и WikiBench — стабильность.
• Лучше всех baseline-методов, включая supervised fine-tuning и Self-Rewarding.

Статья
18🔥11👍5
Из реально прикольного пишут что автономный дрон из Micro Air Vehicle Lab Делфта обошел 13 других дронов, а еще обошел людей в гонках на A2RL Drone Championship в Абу Даби

Пару лет назад дрон уже обгонял людей, но там была предустановленная исследователями трасса. А в этой новости пишут, что трасса бала организаторами сделана (т.е. они или не затачивались под нее специально, или затачивались но не так сильно - тут я чот не очень понял).
RLем тренили
🥳 Оч круто

https://www.youtube.com/watch?v=yz2in2eFATE

https://www.tudelft.nl/2025/lr/wereldprimeur-tu-delft-ai-drone-wint-van-menselijke-bestuurders-op-wk-drone-racen

На ютубе на эту работу ссылаются

End-to-end Reinforcement Learning for Time-Optimal Quadcopter Flight
https://ieeexplore.ieee.org/document/10611665
https://arxiv.org/abs/2311.16948

PS Собираем кстати AI штуки и проекты делаем в https://www.tgoop.com/researchim
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13😱5👍4
Ребятки разбираются что дают SFT vs RL для ризонинга в VLMках

Сначала взяли уже существующие датасеты картиночно-текстовые и по ним нагенерировали датасеты с трейсами для SFT и RL с дипсиком R1 и GPTшкой верифицировали. Генерили 2 сета один для SFT с трейсами размышлений, второй чисто для RL. SFT сет еще подразбивали на отдельные подмножества с aha моментами и на разные количества.
Вообще получается, что у нас все сеты учебные нагенерены R1, потом почищены и перегенерены GPTшками, т.е. уже синтетические. Считаю важно отметить, ведь это может афектить на результат.

Список изначальных датасетов по которым генерировали трейсы кстати в карточке прописаны:
https://huggingface.co/datasets/UCSC-VLAA/VLAA-Thinking

Тестились на других (на первом скрине).

Нашли что в SFT сетах возникают как их назвали "псевдо-aha" моменты и "псевдоризонинговые" трейсы . aha это что-то вроде "опапа я тут косячнул, сейчас переделаю" Там бывают неправильные рассуждения или просто лишняя или нерелевантная информация, которая наоборот должна мешать. Ну и авторы пишут что такие трейсы дропают метрики.

Кстати aha-трейсы авторы детектили по словам: wait, again, double-check, hmm, mistake, alternatively, check, i should confirm.

Реварды для GRPO использовали как на правилах. так и ревард модельку подключали.

Тюнили Qwen VL 2, 2.5 модельки.

Что увидели

просто SFT: ухудшает работу модельки. Причем чем больше SFT тем хуже. на 25к данных ухудшается на 32%, при 126к - на 47% в среднем. SFT с aha-моментами тоже роняет производительность. Дроп был как на 3B, так и на 7B модельке.
Смотрим на 1 скрине, на некоторых тестовых сетах вообще дроп до 99.7% бывает.

Применение SFT перед RL: также ухудшает результаты. Кстати, выросли реварды на RL после SFT меньше, чем без него, хотя стартовали выше (моделька скорее всего уже что-то подучила через SFT, что сразу помогает получше отвечать). 2 скрин

Просто RL: ну тут просто рост и кайф.

Так понял.

Вообще очень интересно, что RL дает буст, а SFT может подпортить малинку.
Почему так? 😑
Мне кажется что вклад некачественных синтетических SFT трейсов точно есть.

SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models
https://arxiv.org/abs/2504.11468
https://www.alphaxiv.org/ru/overview/2504.11468

https://ucsc-vlaa.github.io/VLAA-Thinking/

https://github.com/UCSC-VLAA/VLAA-Thinking

заходи в https://www.tgoop.com/researchim (мы там всякое делаем и ai статейки собираем)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🔥2🤔1
Агенты ИИ | AGI_and_RL
Из вчерашнего релиза ОпенАИ имеем революционные и рекордные o3 и o4-mini ну и они выпустили кодового агента https://github.com/openai/codex Но я пока все же на курсоре останусь
Кстати, пишите в коментах какими модельками пользуетесь больше всего?

В курсоре клод 3.7
в чатгпт - 4.5 и 4o

Есть ли среди нас фанаты гигачата и яндекс гпт?
Или может локальные?
2🤔1👌1
Агенты ИИ | AGI_and_RL
Photo
Вчера еще собирался вот это к посту прикрепить (в иксе авторов взял)
Но забыл.
RL типа вот такой сильный крутой дракон, а остальные вот ну глупые кароч.
🔥11😁9🤗2
Ребятки, на https://www.alphaxiv.org/ приехал o4-mini
Напоминаю, что это как соцсеть по архиву и там можно чатиться с ллмками по архивным статьям
🔥241👍1
Еще один крутецкий момент на https://www.alphaxiv.org/

Там есть не только сами статьи, но и вкладка Blog, а на ней показывается сгенеренный по статье обзор-объяснение.
Если зашли на Blog и там овервьюшки нету - нажимаете Generate Overview и оно начинает генерироваться.
Вот например для статьи про которую писал нажал сгенерить обзор: https://www.alphaxiv.org/ru/overview/2504.11468
И оно сгенерило причем доступны были обзоры сразу на 4х языках в том числе и на русском. Хотя статья новая, к ней обзора до меня получается не генерили (походу настолько она интересная 😕)

Но для других старых статей например только на английском сгенерилось: https://www.alphaxiv.org/overview/2402.05290
Пока не знаю почему 🤷‍♂️
UPD: на всех языках сгенерелись, видать просто подождать надо! https://www.alphaxiv.org/ru/overview/2402.05290

А кроме обзора можно и с ллмкой пообщаться.
Крч пришло время вспомнить про старые статьи в которых хотелось разобраться и это теперь очень легко

Если сами сгенерите обзоры к статьям - кидайте ссылочки в коменты!

PS а еще заходите в https://www.tgoop.com/researchim мы там полезное по иишечке собираем
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍6🥰5
Superhuman vending bot

Агенту дают 500usd, автомат на три лотка, чаржат по 2usd в день за использование автомата, а еще 3 тулa:
- посмотреть информацию о субагенте
- выдать задачу субагенту
- спросить что то субагента

Субагенты в свою очередь могут собрать деньги из автомата, положить новые товары, установить цены и тд.

В чем цель? Наторговать на максимальный обьем денег.

Крайне любопытная работа и бенчмарк, ознакомьтесь

paper
🔥171👍1
Добро пожаловать в эру обучения на опыте (от Дэвида Сильвера и Ричарда Саттона)

Мол хорошие данные полученные от людей к концу подходят. Сейчас будем RL с LLMами накручивать, чтобы они больше могли исследовать и сами учиться.

*Иишки обученные на знаниях от людей знают только эти знания, а как новые получать?
*ИИшка будет меньше опираться на получение информации от людей и больше выуживать ее из среды с которой взаимодействует.
Например награду и возможные действия Иишка будет больше доставать из среды и опыта взаимодействия с ней.
*Обучение будет происходить все время "жизни" иишки.

У RLя есть проблемы и сейчас хорошее время попробовать решить их заново.
С теми же ревардами. В некоторых хороших задачах их можно определить и агент по ним научится делать полезные вещи. Но в большинстве задач построить реварды которые бы привели к нахождению решения трудно.
Вспомним про тот же Human Feedback, который нужен чтобы учить модельки быть приятными и послушными, и хорошо инструкциям следовали.
Может ли ллмка сама для любой задачи разработать систему наград которая бы позволила эффективно найти решение для новой незнакомой задачи? Я думаю, что нет, хотя и не проверял.
(ну разве что o3 и o4-mini смогут 😎)

Вопросов и проблем множество.

Определенно прогресс есть, но достаточен ли он и как быстро будет двигаться? Следим за ситуацией

статью читаем

И не забудьте ваше мнение в комментариях оставить
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥124🤔2👎1
Несколько дней не видел обзорок по тест тайм скейлингам, RLям, CoT, агентам и вот этому всему. (выходные же были) Даже как-то не по себе начало становиться 😰

Но ребята исправляют ситуацию. И кстати понравилось, качественная работа
Много красивых графичков, табличек, карт и прочего. Подсобрали статьи в том числе и свежайшие

жостко читаем

Generative AI Act II: Test Time Scaling Drives Cognition Engineering
https://arxiv.org/abs/2504.13828
https://github.com/GAIR-NLP/cognition-engineering

PS и приходите в https://www.tgoop.com/researchim другие статейки читать и проектики делать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥2🤔2
Forwarded from AbstractDL
This media is not supported in your browser
VIEW IN TELEGRAM
RL не развивает потенциал рассуждений LLM (by Tsinghua)

RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии.

Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений.

Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно!

Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений.

Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений.

Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток.

Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы.

Статья, GitHub
🔥17😱10😭62
2025/07/13 15:30:11
Back to Top
HTML Embed Code: