Один раз исследователи не написали обзорку по агентам, больше их никто не видел
Эти написали. И в основном они из salesforce (они иногда очень прикольные вещи делают🥰 )
обозреваем
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems
https://arxiv.org/abs/2504.09037
Эти написали. И в основном они из salesforce (они иногда очень прикольные вещи делают
обозреваем
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems
https://arxiv.org/abs/2504.09037
Please open Telegram to view this post
VIEW IN TELEGRAM
✍6❤4🤔2
Forwarded from AI для Всех (Artemii)
Genius: Когда языковая модель начинает учиться сама
Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика. Просто — 25 000 обычных вопросов. А она сама начинает думать лучше.
Это не фантастика. Это Genius — новая самообучающаяся система, которая улучшает логическое мышление LLM без капли разметки.
Почему это вообще возможно?
Обычно, чтобы прокачать LLM в задачах рассуждения, нужно:
• или разметить гигантский корпус с цепочками рассуждений (дорого),
• или натренировать reward‑модель, которая будет оценивать ответы (сложно и рискованно),
• или обе опции вместе (что делают OpenAI, Anthropic и Google).
Genius идёт другим путём. Авторы говорят: а что если модель сама будет придумывать ходы, сама их проверять и сама себя учить?
Как это работает?
Ключевой приём — Stepwise Foresight Re-sampling:
1. Модель отвечает не сразу — а по шагам.
2. На каждом шаге она пробует несколько вариантов следующего действия.
3. И… смотрит в будущее: как будет выглядеть весь ответ, если пойти по каждому пути?
4. Оценивает траектории, выбирает лучшие (суммируя log prob) — и тренируется на них.
Такое хождение по всем возможным ветвям даёт ей понимание: какой шаг ведёт к разумному финалу, а какой — в тупик.
Но есть проблема: оценки могут быть шумными. Иногда «плохой» шаг случайно выглядит хорошим. Чтобы не начать учиться на ошибках, в игру вступает второй приём — Advantage-Calibrated Optimization:
• Он сравнивает не только “награду” текущего шага, но и то, насколько он лучше предыдущего.
• Если “плохой” шаг оказался неожиданно полезным — штраф за него снижается.
• Это делает обучение более устойчивым, без переобучения на случайные успехи.
А теперь самое интересное — результаты.
• Всего 25 000 обычных вопросов (без ответов!) дали +7 pp к точности рассуждений на бенчмарках вроде GSM8K, ReClor и AIME 2024.
• Работает на LLaMA3.1, Qwen2.5, и вообще без привязки к архитектуре.
• Не ломает базовые знания: на MMLU и WikiBench — стабильность.
• Лучше всех baseline-методов, включая supervised fine-tuning и Self-Rewarding.
Статья
Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика. Просто — 25 000 обычных вопросов. А она сама начинает думать лучше.
Это не фантастика. Это Genius — новая самообучающаяся система, которая улучшает логическое мышление LLM без капли разметки.
Почему это вообще возможно?
Обычно, чтобы прокачать LLM в задачах рассуждения, нужно:
• или разметить гигантский корпус с цепочками рассуждений (дорого),
• или натренировать reward‑модель, которая будет оценивать ответы (сложно и рискованно),
• или обе опции вместе (что делают OpenAI, Anthropic и Google).
Genius идёт другим путём. Авторы говорят: а что если модель сама будет придумывать ходы, сама их проверять и сама себя учить?
Как это работает?
Ключевой приём — Stepwise Foresight Re-sampling:
1. Модель отвечает не сразу — а по шагам.
2. На каждом шаге она пробует несколько вариантов следующего действия.
3. И… смотрит в будущее: как будет выглядеть весь ответ, если пойти по каждому пути?
4. Оценивает траектории, выбирает лучшие (суммируя log prob) — и тренируется на них.
Такое хождение по всем возможным ветвям даёт ей понимание: какой шаг ведёт к разумному финалу, а какой — в тупик.
Но есть проблема: оценки могут быть шумными. Иногда «плохой» шаг случайно выглядит хорошим. Чтобы не начать учиться на ошибках, в игру вступает второй приём — Advantage-Calibrated Optimization:
• Он сравнивает не только “награду” текущего шага, но и то, насколько он лучше предыдущего.
• Если “плохой” шаг оказался неожиданно полезным — штраф за него снижается.
• Это делает обучение более устойчивым, без переобучения на случайные успехи.
А теперь самое интересное — результаты.
• Всего 25 000 обычных вопросов (без ответов!) дали +7 pp к точности рассуждений на бенчмарках вроде GSM8K, ReClor и AIME 2024.
• Работает на LLaMA3.1, Qwen2.5, и вообще без привязки к архитектуре.
• Не ломает базовые знания: на MMLU и WikiBench — стабильность.
• Лучше всех baseline-методов, включая supervised fine-tuning и Self-Rewarding.
Статья
❤18🔥11👍5
AI для Всех
Genius: Когда языковая модель начинает учиться сама Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика. Просто — 25 000 обычных вопросов. А она сама начинает думать лучше. Это не фантастика. Это Genius — новая самообучающаяся…
Дополню ещё ссылкой на код, там ссылка на hf с модельками тоже есть
https://github.com/xufangzhi/Genius
https://github.com/xufangzhi/Genius
🔥13👍3🤝2
Агенты ИИ | AGI_and_RL
Не кажется ли вам, что инновации ОпенАИ как бы подсократились в последнее время? Ресерч их как будто сжался
Из вчерашнего релиза ОпенАИ имеем революционные и рекордные o3 и o4-mini
ну и они выпустили кодового агента
https://github.com/openai/codex
Но я пока все же на курсоре останусь
ну и они выпустили кодового агента
https://github.com/openai/codex
Но я пока все же на курсоре останусь
GitHub
GitHub - openai/codex: Lightweight coding agent that runs in your terminal
Lightweight coding agent that runs in your terminal - openai/codex
1👌6👍2
Из реально прикольного пишут что автономный дрон из Micro Air Vehicle Lab Делфта обошел 13 других дронов, а еще обошел людей в гонках на A2RL Drone Championship в Абу Даби
Пару лет назад дрон уже обгонял людей, но там была предустановленная исследователями трасса. А в этой новости пишут, что трасса бала организаторами сделана (т.е. они или не затачивались под нее специально, или затачивались но не так сильно - тут я чот не очень понял).
RLем тренили
🥳 Оч круто
https://www.youtube.com/watch?v=yz2in2eFATE
https://www.tudelft.nl/2025/lr/wereldprimeur-tu-delft-ai-drone-wint-van-menselijke-bestuurders-op-wk-drone-racen
На ютубе на эту работу ссылаются
End-to-end Reinforcement Learning for Time-Optimal Quadcopter Flight
https://ieeexplore.ieee.org/document/10611665
https://arxiv.org/abs/2311.16948
PS Собираем кстати AI штуки и проекты делаем в https://www.tgoop.com/researchim
Пару лет назад дрон уже обгонял людей, но там была предустановленная исследователями трасса. А в этой новости пишут, что трасса бала организаторами сделана (т.е. они или не затачивались под нее специально, или затачивались но не так сильно - тут я чот не очень понял).
RLем тренили
https://www.youtube.com/watch?v=yz2in2eFATE
https://www.tudelft.nl/2025/lr/wereldprimeur-tu-delft-ai-drone-wint-van-menselijke-bestuurders-op-wk-drone-racen
На ютубе на эту работу ссылаются
End-to-end Reinforcement Learning for Time-Optimal Quadcopter Flight
https://ieeexplore.ieee.org/document/10611665
https://arxiv.org/abs/2311.16948
PS Собираем кстати AI штуки и проекты делаем в https://www.tgoop.com/researchim
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Autonomous Drone from TU Delft Defeats Human Champions in Historic Racing First
- https://www.linkedin.com/posts/tudelft_university-technology-innovation-ugcPost-7317863383142191105-hRgA?utm_source=share&utm_medium=member_desktop&rcm=ACoAAADJp08B9kdY-Ab21RQeBQVD_GoXFdPhx2c
- https://www.linkedin.com/posts/tu-delft-aerospace-engineering_aetudelft…
- https://www.linkedin.com/posts/tu-delft-aerospace-engineering_aetudelft…
🔥13😱5👍4
Ребятки разбираются что дают SFT vs RL для ризонинга в VLMках
Сначала взяли уже существующие датасеты картиночно-текстовые и по ним нагенерировали датасеты с трейсами для SFT и RL с дипсиком R1 и GPTшкой верифицировали. Генерили 2 сета один для SFT с трейсами размышлений, второй чисто для RL. SFT сет еще подразбивали на отдельные подмножества с aha моментами и на разные количества.
Вообще получается, что у нас все сеты учебные нагенерены R1, потом почищены и перегенерены GPTшками, т.е. уже синтетические. Считаю важно отметить, ведь это может афектить на результат.
Список изначальных датасетов по которым генерировали трейсы кстати в карточке прописаны:
https://huggingface.co/datasets/UCSC-VLAA/VLAA-Thinking
Тестились на других (на первом скрине).
Нашли что в SFT сетах возникают как их назвали "псевдо-aha" моменты и "псевдоризонинговые" трейсы . aha это что-то вроде "опапа я тут косячнул, сейчас переделаю" Там бывают неправильные рассуждения или просто лишняя или нерелевантная информация, которая наоборот должна мешать. Ну и авторы пишут что такие трейсы дропают метрики.
Кстати aha-трейсы авторы детектили по словам: wait, again, double-check, hmm, mistake, alternatively, check, i should confirm.
Реварды для GRPO использовали как на правилах. так и ревард модельку подключали.
Тюнили Qwen VL 2, 2.5 модельки.
Что увидели
просто SFT: ухудшает работу модельки. Причем чем больше SFT тем хуже. на 25к данных ухудшается на 32%, при 126к - на 47% в среднем. SFT с aha-моментами тоже роняет производительность. Дроп был как на 3B, так и на 7B модельке.
Смотрим на 1 скрине, на некоторых тестовых сетах вообще дроп до 99.7% бывает.
Применение SFT перед RL: также ухудшает результаты. Кстати, выросли реварды на RL после SFT меньше, чем без него, хотя стартовали выше (моделька скорее всего уже что-то подучила через SFT, что сразу помогает получше отвечать). 2 скрин
Просто RL: ну тут просто рост и кайф.
Так понял.
Вообще очень интересно, что RL дает буст, а SFT может подпортить малинку.
Почему так?😑
Мне кажется что вклад некачественных синтетических SFT трейсов точно есть.
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models
https://arxiv.org/abs/2504.11468
https://www.alphaxiv.org/ru/overview/2504.11468
https://ucsc-vlaa.github.io/VLAA-Thinking/
https://github.com/UCSC-VLAA/VLAA-Thinking
заходи в https://www.tgoop.com/researchim (мы там всякое делаем и ai статейки собираем)
Сначала взяли уже существующие датасеты картиночно-текстовые и по ним нагенерировали датасеты с трейсами для SFT и RL с дипсиком R1 и GPTшкой верифицировали. Генерили 2 сета один для SFT с трейсами размышлений, второй чисто для RL. SFT сет еще подразбивали на отдельные подмножества с aha моментами и на разные количества.
Вообще получается, что у нас все сеты учебные нагенерены R1, потом почищены и перегенерены GPTшками, т.е. уже синтетические. Считаю важно отметить, ведь это может афектить на результат.
Список изначальных датасетов по которым генерировали трейсы кстати в карточке прописаны:
https://huggingface.co/datasets/UCSC-VLAA/VLAA-Thinking
Тестились на других (на первом скрине).
Нашли что в SFT сетах возникают как их назвали "псевдо-aha" моменты и "псевдоризонинговые" трейсы . aha это что-то вроде "опапа я тут косячнул, сейчас переделаю" Там бывают неправильные рассуждения или просто лишняя или нерелевантная информация, которая наоборот должна мешать. Ну и авторы пишут что такие трейсы дропают метрики.
Кстати aha-трейсы авторы детектили по словам: wait, again, double-check, hmm, mistake, alternatively, check, i should confirm.
Реварды для GRPO использовали как на правилах. так и ревард модельку подключали.
Тюнили Qwen VL 2, 2.5 модельки.
Что увидели
просто SFT: ухудшает работу модельки. Причем чем больше SFT тем хуже. на 25к данных ухудшается на 32%, при 126к - на 47% в среднем. SFT с aha-моментами тоже роняет производительность. Дроп был как на 3B, так и на 7B модельке.
Смотрим на 1 скрине, на некоторых тестовых сетах вообще дроп до 99.7% бывает.
Применение SFT перед RL: также ухудшает результаты. Кстати, выросли реварды на RL после SFT меньше, чем без него, хотя стартовали выше (моделька скорее всего уже что-то подучила через SFT, что сразу помогает получше отвечать). 2 скрин
Просто RL: ну тут просто рост и кайф.
Так понял.
Вообще очень интересно, что RL дает буст, а SFT может подпортить малинку.
Почему так?
Мне кажется что вклад некачественных синтетических SFT трейсов точно есть.
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models
https://arxiv.org/abs/2504.11468
https://www.alphaxiv.org/ru/overview/2504.11468
https://ucsc-vlaa.github.io/VLAA-Thinking/
https://github.com/UCSC-VLAA/VLAA-Thinking
заходи в https://www.tgoop.com/researchim (мы там всякое делаем и ai статейки собираем)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤5🔥2🤔1
Агенты ИИ | AGI_and_RL
Из вчерашнего релиза ОпенАИ имеем революционные и рекордные o3 и o4-mini ну и они выпустили кодового агента https://github.com/openai/codex Но я пока все же на курсоре останусь
Кстати, пишите в коментах какими модельками пользуетесь больше всего?
В курсоре клод 3.7
в чатгпт - 4.5 и 4o
Есть ли среди нас фанаты гигачата и яндекс гпт?
Или может локальные?
В курсоре клод 3.7
в чатгпт - 4.5 и 4o
Есть ли среди нас фанаты гигачата и яндекс гпт?
Или может локальные?
✍2🤔1👌1
Агенты ИИ | AGI_and_RL
Photo
Вчера еще собирался вот это к посту прикрепить (в иксе авторов взял)
Но забыл.
RL типа вот такой сильный крутой дракон, а остальные вот ну глупые кароч.
Но забыл.
RL типа вот такой сильный крутой дракон, а остальные вот ну глупые кароч.
🔥11😁9🤗2
Ребятки, на https://www.alphaxiv.org/ приехал o4-mini
Напоминаю, что это как соцсеть по архиву и там можно чатиться с ллмками по архивным статьям
Напоминаю, что это как соцсеть по архиву и там можно чатиться с ллмками по архивным статьям
🔥24❤1👍1
Еще один крутецкий момент на https://www.alphaxiv.org/
Там есть не только сами статьи, но и вкладка Blog, а на ней показывается сгенеренный по статье обзор-объяснение.
Если зашли на Blog и там овервьюшки нету - нажимаете Generate Overview и оно начинает генерироваться.
Вот например для статьи про которую писал нажал сгенерить обзор: https://www.alphaxiv.org/ru/overview/2504.11468
И оно сгенерило причем доступны были обзоры сразу на 4х языках в том числе и на русском. Хотя статья новая, к ней обзора до меня получается не генерили (походу настолько она интересная😕 )
Но для других старых статей например только на английском сгенерилось: https://www.alphaxiv.org/overview/2402.05290
Пока не знаю почему🤷♂️
UPD: на всех языках сгенерелись, видать просто подождать надо! https://www.alphaxiv.org/ru/overview/2402.05290
А кроме обзора можно и с ллмкой пообщаться.
Крч пришло время вспомнить про старые статьи в которых хотелось разобраться и это теперь очень легко
Если сами сгенерите обзоры к статьям - кидайте ссылочки в коменты!
PS а еще заходите в https://www.tgoop.com/researchim мы там полезное по иишечке собираем
Там есть не только сами статьи, но и вкладка Blog, а на ней показывается сгенеренный по статье обзор-объяснение.
Если зашли на Blog и там овервьюшки нету - нажимаете Generate Overview и оно начинает генерироваться.
Вот например для статьи про которую писал нажал сгенерить обзор: https://www.alphaxiv.org/ru/overview/2504.11468
И оно сгенерило причем доступны были обзоры сразу на 4х языках в том числе и на русском. Хотя статья новая, к ней обзора до меня получается не генерили (походу настолько она интересная
Но для других старых статей например только на английском сгенерилось: https://www.alphaxiv.org/overview/2402.05290
Пока не знаю почему
UPD: на всех языках сгенерелись, видать просто подождать надо! https://www.alphaxiv.org/ru/overview/2402.05290
А кроме обзора можно и с ллмкой пообщаться.
Крч пришло время вспомнить про старые статьи в которых хотелось разобраться и это теперь очень легко
Если сами сгенерите обзоры к статьям - кидайте ссылочки в коменты!
PS а еще заходите в https://www.tgoop.com/researchim мы там полезное по иишечке собираем
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍6🥰5
Forwarded from Love. Death. Transformers.
Superhuman vending bot
Агенту дают 500usd, автомат на три лотка, чаржат по 2usd в день за использование автомата, а еще 3 тулa:
- посмотреть информацию о субагенте
- выдать задачу субагенту
- спросить что то субагента
Субагенты в свою очередь могут собрать деньги из автомата, положить новые товары, установить цены и тд.
В чем цель? Наторговать на максимальный обьем денег.
Крайне любопытная работа и бенчмарк, ознакомьтесь
paper
Агенту дают 500usd, автомат на три лотка, чаржат по 2usd в день за использование автомата, а еще 3 тулa:
- посмотреть информацию о субагенте
- выдать задачу субагенту
- спросить что то субагента
Субагенты в свою очередь могут собрать деньги из автомата, положить новые товары, установить цены и тд.
В чем цель? Наторговать на максимальный обьем денег.
Крайне любопытная работа и бенчмарк, ознакомьтесь
paper
🔥17❤1👍1
Добро пожаловать в эру обучения на опыте (от Дэвида Сильвера и Ричарда Саттона)
Мол хорошие данные полученные от людей к концу подходят. Сейчас будем RL с LLMами накручивать, чтобы они больше могли исследовать и сами учиться.
*Иишки обученные на знаниях от людей знают только эти знания, а как новые получать?
*ИИшка будет меньше опираться на получение информации от людей и больше выуживать ее из среды с которой взаимодействует.
Например награду и возможные действия Иишка будет больше доставать из среды и опыта взаимодействия с ней.
*Обучение будет происходить все время "жизни" иишки.
У RLя есть проблемы и сейчас хорошее время попробовать решить их заново.
С теми же ревардами. В некоторых хороших задачах их можно определить и агент по ним научится делать полезные вещи. Но в большинстве задач построить реварды которые бы привели к нахождению решения трудно.
Вспомним про тот же Human Feedback, который нужен чтобы учить модельки быть приятными и послушными, и хорошо инструкциям следовали.
Может ли ллмка сама для любой задачи разработать систему наград которая бы позволила эффективно найти решение для новой незнакомой задачи? Я думаю, что нет, хотя и не проверял.
(ну разве что o3 и o4-mini смогут😎 )
Вопросов и проблем множество.
Определенно прогресс есть, но достаточен ли он и как быстро будет двигаться? Следим за ситуацией
статью читаем
И не забудьте ваше мнение в комментариях оставить
Мол хорошие данные полученные от людей к концу подходят. Сейчас будем RL с LLMами накручивать, чтобы они больше могли исследовать и сами учиться.
*Иишки обученные на знаниях от людей знают только эти знания, а как новые получать?
*ИИшка будет меньше опираться на получение информации от людей и больше выуживать ее из среды с которой взаимодействует.
Например награду и возможные действия Иишка будет больше доставать из среды и опыта взаимодействия с ней.
*Обучение будет происходить все время "жизни" иишки.
У RLя есть проблемы и сейчас хорошее время попробовать решить их заново.
С теми же ревардами. В некоторых хороших задачах их можно определить и агент по ним научится делать полезные вещи. Но в большинстве задач построить реварды которые бы привели к нахождению решения трудно.
Вспомним про тот же Human Feedback, который нужен чтобы учить модельки быть приятными и послушными, и хорошо инструкциям следовали.
Может ли ллмка сама для любой задачи разработать систему наград которая бы позволила эффективно найти решение для новой незнакомой задачи? Я думаю, что нет, хотя и не проверял.
(ну разве что o3 и o4-mini смогут
Вопросов и проблем множество.
Определенно прогресс есть, но достаточен ли он и как быстро будет двигаться? Следим за ситуацией
статью читаем
И не забудьте ваше мнение в комментариях оставить
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥12❤4🤔2👎1
Несколько дней не видел обзорок по тест тайм скейлингам, RLям, CoT, агентам и вот этому всему. (выходные же были) Даже как-то не по себе начало становиться 😰
Но ребята исправляют ситуацию. И кстати понравилось, качественная работа
Много красивых графичков, табличек, карт и прочего. Подсобрали статьи в том числе и свежайшие
жостко читаем
Generative AI Act II: Test Time Scaling Drives Cognition Engineering
https://arxiv.org/abs/2504.13828
https://github.com/GAIR-NLP/cognition-engineering
PS и приходите в https://www.tgoop.com/researchim другие статейки читать и проектики делать
Но ребята исправляют ситуацию. И кстати понравилось, качественная работа
Много красивых графичков, табличек, карт и прочего. Подсобрали статьи в том числе и свежайшие
жостко читаем
Generative AI Act II: Test Time Scaling Drives Cognition Engineering
https://arxiv.org/abs/2504.13828
https://github.com/GAIR-NLP/cognition-engineering
PS и приходите в https://www.tgoop.com/researchim другие статейки читать и проектики делать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3🔥2🤔2
Forwarded from AbstractDL
This media is not supported in your browser
VIEW IN TELEGRAM
RL не развивает потенциал рассуждений LLM (by Tsinghua)
RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии.
Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений.
Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно!
Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений.
Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений.
Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток.
Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы.
Статья, GitHub
RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии.
Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений.
Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно!
Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений.
Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений.
Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток.
Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы.
Статья, GitHub
🔥17😱10😭6❤2
AbstractDL
RL не развивает потенциал рассуждений LLM (by Tsinghua) RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой…
RL В С Ё 😕
Кстати я эту статью в https://www.tgoop.com/researchim еще с утра положил и вы могли ее еще раньше там прочитать) заходите
Кстати я эту статью в https://www.tgoop.com/researchim еще с утра положил и вы могли ее еще раньше там прочитать) заходите
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
ресечим/делаем (c) AI
чтобы ресечить
🔥11❤5🤝2💊1