Агенты ИИ | AGI_and_RL 1039

Агенты ИИ | AGI_and_RL

Один раз исследователи не написали обзорку по агентам, больше их никто не видел

Эти написали. И в основном они из salesforce (они иногда очень прикольные вещи делают 🥰)
обозреваем

A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems
https://arxiv.org/abs/2504.09037

Please open Telegram to view this post

VIEW IN TELEGRAM

✍6❤4🤔2

1.48K views07:08

Агенты ИИ | AGI_and_RL

https://ai-2027.com/ Кто-нибудь читал? Стоит вообще открывать?

👍26😁9🥱4👎3❤2🥰1💅1

1.61K views07:53

Агенты ИИ | AGI_and_RL

Forwarded from Альберт Ф

так смешнее

😁37👍6🤣3😢1

1.47K views08:07

Агенты ИИ | AGI_and_RL

Forwarded from AI для Всех (Artemii)

Genius: Когда языковая модель начинает учиться сама

Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика. Просто — 25 000 обычных вопросов. А она сама начинает думать лучше.

Это не фантастика. Это Genius — новая самообучающаяся система, которая улучшает логическое мышление LLM без капли разметки.

Почему это вообще возможно?

Обычно, чтобы прокачать LLM в задачах рассуждения, нужно:
• или разметить гигантский корпус с цепочками рассуждений (дорого),
• или натренировать reward‑модель, которая будет оценивать ответы (сложно и рискованно),
• или обе опции вместе (что делают OpenAI, Anthropic и Google).

Genius идёт другим путём. Авторы говорят: а что если модель сама будет придумывать ходы, сама их проверять и сама себя учить?

Как это работает?

Ключевой приём — Stepwise Foresight Re-sampling:
1. Модель отвечает не сразу — а по шагам.
2. На каждом шаге она пробует несколько вариантов следующего действия.
3. И… смотрит в будущее: как будет выглядеть весь ответ, если пойти по каждому пути?
4. Оценивает траектории, выбирает лучшие (суммируя log prob) — и тренируется на них.

Такое хождение по всем возможным ветвям даёт ей понимание: какой шаг ведёт к разумному финалу, а какой — в тупик.

Но есть проблема: оценки могут быть шумными. Иногда «плохой» шаг случайно выглядит хорошим. Чтобы не начать учиться на ошибках, в игру вступает второй приём — Advantage-Calibrated Optimization:
• Он сравнивает не только “награду” текущего шага, но и то, насколько он лучше предыдущего.
• Если “плохой” шаг оказался неожиданно полезным — штраф за него снижается.
• Это делает обучение более устойчивым, без переобучения на случайные успехи.

А теперь самое интересное — результаты.
• Всего 25 000 обычных вопросов (без ответов!) дали +7 pp к точности рассуждений на бенчмарках вроде GSM8K, ReClor и AIME 2024.
• Работает на LLaMA3.1, Qwen2.5, и вообще без привязки к архитектуре.
• Не ломает базовые знания: на MMLU и WikiBench — стабильность.
• Лучше всех baseline-методов, включая supervised fine-tuning и Self-Rewarding.

Статья

❤18🔥11👍5

1.3K views17:02

Агенты ИИ | AGI_and_RL

AI для Всех

Genius: Когда языковая модель начинает учиться сама Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика. Просто — 25 000 обычных вопросов. А она сама начинает думать лучше. Это не фантастика. Это Genius — новая самообучающаяся…

Дополню ещё ссылкой на код, там ссылка на hf с модельками тоже есть

https://github.com/xufangzhi/Genius

🔥13👍3🤝2

1.54K viewsedited 17:04

Агенты ИИ | AGI_and_RL

Не кажется ли вам, что инновации ОпенАИ как бы подсократились в последнее время? Ресерч их как будто сжался

Из вчерашнего релиза ОпенАИ имеем революционные и рекордные o3 и o4-mini

ну и они выпустили кодового агента

https://github.com/openai/codex

Но я пока все же на курсоре останусь

GitHub

GitHub - openai/codex: Lightweight coding agent that runs in your terminal

Lightweight coding agent that runs in your terminal - openai/codex

1👌6👍2

1.47K viewsedited 10:03

Агенты ИИ | AGI_and_RL

Из реально прикольного пишут что автономный дрон из Micro Air Vehicle Lab Делфта обошел 13 других дронов, а еще обошел людей в гонках на A2RL Drone Championship в Абу Даби

Пару лет назад дрон уже обгонял людей, но там была предустановленная исследователями трасса. А в этой новости пишут, что трасса бала организаторами сделана (т.е. они или не затачивались под нее специально, или затачивались но не так сильно - тут я чот не очень понял).
RLем тренили
🥳 Оч круто

https://www.youtube.com/watch?v=yz2in2eFATE

https://www.tudelft.nl/2025/lr/wereldprimeur-tu-delft-ai-drone-wint-van-menselijke-bestuurders-op-wk-drone-racen

На ютубе на эту работу ссылаются

End-to-end Reinforcement Learning for Time-Optimal Quadcopter Flight
https://ieeexplore.ieee.org/document/10611665
https://arxiv.org/abs/2311.16948

PS Собираем кстати AI штуки и проекты делаем в https://www.tgoop.com/researchim

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Autonomous Drone from TU Delft Defeats Human Champions in Historic Racing First

- https://www.linkedin.com/posts/tudelft_university-technology-innovation-ugcPost-7317863383142191105-hRgA?utm_source=share&utm_medium=member_desktop&rcm=ACoAAADJp08B9kdY-Ab21RQeBQVD_GoXFdPhx2c
- https://www.linkedin.com/posts/tu-delft-aerospace-engineering_aetudelft…

🔥13😱5👍4

7.56K viewsedited 10:26

Агенты ИИ | AGI_and_RL

Ребятки разбираются что дают SFT vs RL для ризонинга в VLMках

Сначала взяли уже существующие датасеты картиночно-текстовые и по ним нагенерировали датасеты с трейсами для SFT и RL с дипсиком R1 и GPTшкой верифицировали. Генерили 2 сета один для SFT с трейсами размышлений, второй чисто для RL. SFT сет еще подразбивали на отдельные подмножества с aha моментами и на разные количества.
Вообще получается, что у нас все сеты учебные нагенерены R1, потом почищены и перегенерены GPTшками, т.е. уже синтетические. Считаю важно отметить, ведь это может афектить на результат.

Список изначальных датасетов по которым генерировали трейсы кстати в карточке прописаны:
https://huggingface.co/datasets/UCSC-VLAA/VLAA-Thinking

Тестились на других (на первом скрине).

Нашли что в SFT сетах возникают как их назвали "псевдо-aha" моменты и "псевдоризонинговые" трейсы . aha это что-то вроде "опапа я тут косячнул, сейчас переделаю" Там бывают неправильные рассуждения или просто лишняя или нерелевантная информация, которая наоборот должна мешать. Ну и авторы пишут что такие трейсы дропают метрики.

Кстати aha-трейсы авторы детектили по словам: wait, again, double-check, hmm, mistake, alternatively, check, i should confirm.

Реварды для GRPO использовали как на правилах. так и ревард модельку подключали.

Тюнили Qwen VL 2, 2.5 модельки.

Что увидели

просто SFT: ухудшает работу модельки. Причем чем больше SFT тем хуже. на 25к данных ухудшается на 32%, при 126к - на 47% в среднем. SFT с aha-моментами тоже роняет производительность. Дроп был как на 3B, так и на 7B модельке.
Смотрим на 1 скрине, на некоторых тестовых сетах вообще дроп до 99.7% бывает.

Применение SFT перед RL: также ухудшает результаты. Кстати, выросли реварды на RL после SFT меньше, чем без него, хотя стартовали выше (моделька скорее всего уже что-то подучила через SFT, что сразу помогает получше отвечать). 2 скрин

Просто RL: ну тут просто рост и кайф.

Так понял.

Вообще очень интересно, что RL дает буст, а SFT может подпортить малинку.
Почему так? 😑
Мне кажется что вклад некачественных синтетических SFT трейсов точно есть.

SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models
https://arxiv.org/abs/2504.11468
https://www.alphaxiv.org/ru/overview/2504.11468

https://ucsc-vlaa.github.io/VLAA-Thinking/

https://github.com/UCSC-VLAA/VLAA-Thinking

заходи в https://www.tgoop.com/researchim (мы там всякое делаем и ai статейки собираем)

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤5🔥2🤔1

2.15K viewsedited 15:21

Агенты ИИ | AGI_and_RL

Из вчерашнего релиза ОпенАИ имеем революционные и рекордные o3 и o4-mini ну и они выпустили кодового агента https://github.com/openai/codex Но я пока все же на курсоре останусь

Кстати, пишите в коментах какими модельками пользуетесь больше всего?

В курсоре клод 3.7
в чатгпт - 4.5 и 4o

Есть ли среди нас фанаты гигачата и яндекс гпт?
Или может локальные?

✍2🤔1👌1

1.41K viewsedited 13:08

Агенты ИИ | AGI_and_RL

Photo

Вчера еще собирался вот это к посту прикрепить (в иксе авторов взял)
Но забыл.
RL типа вот такой сильный крутой дракон, а остальные вот ну глупые кароч.

🔥11😁9🤗2

1.61K views13:13

Агенты ИИ | AGI_and_RL

Ребятки, на https://www.alphaxiv.org/ приехал o4-mini
Напоминаю, что это как соцсеть по архиву и там можно чатиться с ллмками по архивным статьям

🔥24❤1👍1

1.78K viewsedited 14:47

Агенты ИИ | AGI_and_RL

Еще один крутецкий момент на https://www.alphaxiv.org/

Там есть не только сами статьи, но и вкладка Blog, а на ней показывается сгенеренный по статье обзор-объяснение.
Если зашли на Blog и там овервьюшки нету - нажимаете Generate Overview и оно начинает генерироваться.
Вот например для статьи про которую писал нажал сгенерить обзор: https://www.alphaxiv.org/ru/overview/2504.11468
И оно сгенерило причем доступны были обзоры сразу на 4х языках в том числе и на русском. Хотя статья новая, к ней обзора до меня получается не генерили (походу настолько она интересная 😕)

Но для других старых статей например только на английском сгенерилось: https://www.alphaxiv.org/overview/2402.05290
Пока не знаю почему 🤷‍♂️
UPD: на всех языках сгенерелись, видать просто подождать надо! https://www.alphaxiv.org/ru/overview/2402.05290

А кроме обзора можно и с ллмкой пообщаться.
Крч пришло время вспомнить про старые статьи в которых хотелось разобраться и это теперь очень легко

Если сами сгенерите обзоры к статьям - кидайте ссылочки в коменты!

PS а еще заходите в https://www.tgoop.com/researchim мы там полезное по иишечке собираем

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥17👍6🥰5

1.67K viewsedited 07:45

Агенты ИИ | AGI_and_RL

Forwarded from Love. Death. Transformers.

Superhuman vending bot

Агенту дают 500usd, автомат на три лотка, чаржат по 2usd в день за использование автомата, а еще 3 тулa:
- посмотреть информацию о субагенте
- выдать задачу субагенту
- спросить что то субагента

Субагенты в свою очередь могут собрать деньги из автомата, положить новые товары, установить цены и тд.

В чем цель? Наторговать на максимальный обьем денег.

Крайне любопытная работа и бенчмарк, ознакомьтесь

paper

🔥17❤1👍1

1.29K views08:52

Агенты ИИ | AGI_and_RL

Добро пожаловать в эру обучения на опыте (от Дэвида Сильвера и Ричарда Саттона)

Мол хорошие данные полученные от людей к концу подходят. Сейчас будем RL с LLMами накручивать, чтобы они больше могли исследовать и сами учиться.

*Иишки обученные на знаниях от людей знают только эти знания, а как новые получать?
*ИИшка будет меньше опираться на получение информации от людей и больше выуживать ее из среды с которой взаимодействует.
Например награду и возможные действия Иишка будет больше доставать из среды и опыта взаимодействия с ней.
*Обучение будет происходить все время "жизни" иишки.

У RLя есть проблемы и сейчас хорошее время попробовать решить их заново.
С теми же ревардами. В некоторых хороших задачах их можно определить и агент по ним научится делать полезные вещи. Но в большинстве задач построить реварды которые бы привели к нахождению решения трудно.
Вспомним про тот же Human Feedback, который нужен чтобы учить модельки быть приятными и послушными, и хорошо инструкциям следовали.
Может ли ллмка сама для любой задачи разработать систему наград которая бы позволила эффективно найти решение для новой незнакомой задачи? Я думаю, что нет, хотя и не проверял.
(ну разве что o3 и o4-mini смогут 😎)

Вопросов и проблем множество.

Определенно прогресс есть, но достаточен ли он и как быстро будет двигаться? Следим за ситуацией

статью читаем

И не забудьте ваше мнение в комментариях оставить

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13🔥12❤4🤔2👎1

1.71K views12:38

Агенты ИИ | AGI_and_RL

Несколько дней не видел обзорок по тест тайм скейлингам, RLям, CoT, агентам и вот этому всему. (выходные же были) Даже как-то не по себе начало становиться 😰

Но ребята исправляют ситуацию. И кстати понравилось, качественная работа
Много красивых графичков, табличек, карт и прочего. Подсобрали статьи в том числе и свежайшие

жостко читаем

Generative AI Act II: Test Time Scaling Drives Cognition Engineering
https://arxiv.org/abs/2504.13828
https://github.com/GAIR-NLP/cognition-engineering

PS и приходите в https://www.tgoop.com/researchim другие статейки читать и проектики делать

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3🔥2🤔2

1.81K viewsedited 09:33

Агенты ИИ | AGI_and_RL

Forwarded from AbstractDL

This media is not supported in your browser

VIEW IN TELEGRAM

RL не развивает потенциал рассуждений LLM (by Tsinghua)

RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии.

Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений.

Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно!

Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений.

Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений.

Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток.

Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы.

Статья, GitHub

🔥17😱10😭6❤2

1.31K views13:11

Агенты ИИ | AGI_and_RL

AbstractDL

RL не развивает потенциал рассуждений LLM (by Tsinghua) RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой…

RL В С Ё 😕

Кстати я эту статью в https://www.tgoop.com/researchim еще с утра положил и вы могли ее еще раньше там прочитать) заходите

Please open Telegram to view this post

VIEW IN TELEGRAM

ресечим/делаем (c) AI

чтобы ресечить

🔥11❤5🤝2💊1

2.03K viewsedited 13:11

2025/07/13 15:30:11
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>