Forwarded from Kali Novskaya
🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸
#nlp #про_nlp #nlp_papers
Сегодня, под конец этой насыщенной недели, мы с коллегами выпускаем новую работу "MLGym: A New Framework and Benchmark for Advancing AI Research Agents".
🟣 TL;DR
MLGym – это фреймворк для оценки и развития LLM-агентов.
В нем пока 15 различных ML задач, включая хорошо и не очень определенные: задачи на NLP, CV, RL, теорию игр.
Агенты должны продемонстрировать свою способность понять задачу, запустить бейзлайн, оцени его, и начать итерировать эксперименты и улучшать результат, находясь при этом в заданной среде. В среде есть набор инструментов, которые можно использовать: поиск по файловой системе, поиск по файлам, модуль памяти, просмотр и изменение файлов, и собственно действия запуска скрипта оценки и сабмита решения.
Каждая задача содержит датасет, метрику, бейзлайн, а также свою собственную среду, где есть контролируемые ограничения на вычислительный бюджет и таймауты.
Мы предлагаем иерархическую структуру из 6 уровней для оценки степени автономии и научного вклада агентов:
Уровень 0: воспроизведение – аккуратно повторить чужие эксперименты без ошибок
Уровень 1: Итеративное улучшение бейзлайна – применение лучших практик, перебор гипертапаметров
Уровень 2: Достижение SOTA через итерации от бейзлайна – решение лучше тех, что смогли найти люди
Уровень 3: Новый научный вклад – можно быть принятым на условный NeurIPS
Уровень 4: Научное новаторство, фундаментальный научный вклад – можно получить "лучшую статью" на том же NeurIPS
Уровень 5: Долгосрочная исследовательская программа – test of time awards, научная революция, премия Тьюринга.
🟣 Что мы выяснили?
Текущие ИИ системы находятся почти поголовно на уровне 1.
Удобно оценивать все системы относительно дельты, которую они смогли достичь, опираясь на бейзлайн, за заданное количество итераций (за первые 5 шагов у системы Х получили +15% точности, а у системы Y +20%). Если оценивать LLM-агенты так, то увидим, что O1-preview вырывается вперед практически на всех задачах. GPT-4o и LLama 3.1 405B примерно на одном уровне, Claude и Gemini делят обычно 2 и 3 место. Ну а если помимо дельты оценивать еще и стоимость инференса модели, но картина меняется, и лучше по соотношению оказывается Gemini с большим отрывом.
Достаточно интересно посмотреть распределение действий агентов и их ошибок:
— большинство LLM-агентов делают ошибки и из-за этого не доходят до сабмита, тогда как O1 и Gemini гораздо чаще просто не доделывают сабмит до конца.
— все агенты большую часть действий тратят на изменение файлов: редактирование скриптов обучения, а также чтение файлов, запуск обучения и валидацию — соотношение действий примерно у всех одинаковое, хотя некоторым система действий требуется меньше.
— почти все агенты очень мало используют поиск, хотя могли бы.
— минимальное число итераций до первого сабмита — примерно 5. Все системы начинают с чтения файлов, затем запускают валидацию, и дальше планомерно итерируются, изменяя скрипты и запуская обучение.
🟣 Что еще есть полезного?
— Классный Web UI визуализатор агентных логов на
— Есть набор полезных функций и tools, полностью совместимый с SWE-Agent.
— Есть модуль памяти, модуль поиска научной литературы, и еще много разных ништяков, которые можно использовать отдельно от бенчмарка, просто развивая своего агента (свой агент? Это же неодушевленное...).
— Есть большой обзор литературы, охватывающий почти все последние работы в области агентов для SWE, ML, науки, который угадайте кто писал.
Линейку задач можно легко расширять — поэтому мы будем рады идеям и контрибьюшенам, а также любой активности в репозитории.
🟣 Arxiv: https://arxiv.org/abs/2502.14499
🟣 Github: https://github.com/facebookresearch/MLGym
🟣 Лицензия: CC-BY-NC 4.0
#nlp #про_nlp #nlp_papers
Сегодня, под конец этой насыщенной недели, мы с коллегами выпускаем новую работу "MLGym: A New Framework and Benchmark for Advancing AI Research Agents".
MLGym – это фреймворк для оценки и развития LLM-агентов.
В нем пока 15 различных ML задач, включая хорошо и не очень определенные: задачи на NLP, CV, RL, теорию игр.
Агенты должны продемонстрировать свою способность понять задачу, запустить бейзлайн, оцени его, и начать итерировать эксперименты и улучшать результат, находясь при этом в заданной среде. В среде есть набор инструментов, которые можно использовать: поиск по файловой системе, поиск по файлам, модуль памяти, просмотр и изменение файлов, и собственно действия запуска скрипта оценки и сабмита решения.
Каждая задача содержит датасет, метрику, бейзлайн, а также свою собственную среду, где есть контролируемые ограничения на вычислительный бюджет и таймауты.
Мы предлагаем иерархическую структуру из 6 уровней для оценки степени автономии и научного вклада агентов:
Уровень 0: воспроизведение – аккуратно повторить чужие эксперименты без ошибок
Уровень 1: Итеративное улучшение бейзлайна – применение лучших практик, перебор гипертапаметров
Уровень 2: Достижение SOTA через итерации от бейзлайна – решение лучше тех, что смогли найти люди
Уровень 3: Новый научный вклад – можно быть принятым на условный NeurIPS
Уровень 4: Научное новаторство, фундаментальный научный вклад – можно получить "лучшую статью" на том же NeurIPS
Уровень 5: Долгосрочная исследовательская программа – test of time awards, научная революция, премия Тьюринга.
Текущие ИИ системы находятся почти поголовно на уровне 1.
Удобно оценивать все системы относительно дельты, которую они смогли достичь, опираясь на бейзлайн, за заданное количество итераций (за первые 5 шагов у системы Х получили +15% точности, а у системы Y +20%). Если оценивать LLM-агенты так, то увидим, что O1-preview вырывается вперед практически на всех задачах. GPT-4o и LLama 3.1 405B примерно на одном уровне, Claude и Gemini делят обычно 2 и 3 место. Ну а если помимо дельты оценивать еще и стоимость инференса модели, но картина меняется, и лучше по соотношению оказывается Gemini с большим отрывом.
Достаточно интересно посмотреть распределение действий агентов и их ошибок:
— большинство LLM-агентов делают ошибки и из-за этого не доходят до сабмита, тогда как O1 и Gemini гораздо чаще просто не доделывают сабмит до конца.
— все агенты большую часть действий тратят на изменение файлов: редактирование скриптов обучения, а также чтение файлов, запуск обучения и валидацию — соотношение действий примерно у всех одинаковое, хотя некоторым система действий требуется меньше.
— почти все агенты очень мало используют поиск, хотя могли бы.
— минимальное число итераций до первого сабмита — примерно 5. Все системы начинают с чтения файлов, затем запускают валидацию, и дальше планомерно итерируются, изменяя скрипты и запуская обучение.
— Классный Web UI визуализатор агентных логов на
streamlit
— Есть набор полезных функций и tools, полностью совместимый с SWE-Agent.
— Есть модуль памяти, модуль поиска научной литературы, и еще много разных ништяков, которые можно использовать отдельно от бенчмарка, просто развивая своего агента (свой агент? Это же неодушевленное...).
— Есть большой обзор литературы, охватывающий почти все последние работы в области агентов для SWE, ML, науки, который угадайте кто писал.
Линейку задач можно легко расширять — поэтому мы будем рады идеям и контрибьюшенам, а также любой активности в репозитории.
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
MLGym: A New Framework and Benchmark for Advancing AI Research Agents
We introduce Meta MLGym and MLGym-Bench, a new framework and benchmark for evaluating and developing LLM agents on AI research tasks. This is the first Gym environment for machine learning (ML)...
🔥12👍5❤3
This media is not supported in your browser
VIEW IN TELEGRAM
rl... rl всегда возвращается
это еще из очень олдовых экспериментов хардмару, но ржомба
https://x.com/hardmaru/status/1892995060557640098
это еще из очень олдовых экспериментов хардмару, но ржомба
Если убрать все ограничения конструкции, оптимизатор придумал действительно высокого двуногого шагающего робота, который «решает» задачу, просто падая и приземляясь около выхода.
https://x.com/hardmaru/status/1892995060557640098
😁28👍2🤣2👏1
Агенты ИИ | AGI_and_RL
Есть вот такая эксплорилка архива. https://www.alphaxiv.org/explore Что-то типа https://huggingface.co/papers Показывает тренды папир на архиве К статьям можно оставлять комменты, ставить 👍 (если зарегаться) Еще есть сообщества по темам, где статьи собираются…
Ребята на https://www.alphaxiv.org/ завезли o3-mini с которой можно по статьям общаться, вот это прикольно
🔥15❤3👏3
Агенты ИИ | AGI_and_RL
Ребята на https://www.alphaxiv.org/ завезли o3-mini с которой можно по статьям общаться, вот это прикольно
сори, тупанул, вот правильный скрин 🤨
кроме 03-mini есть claude 3.5 и Gemini 2
По лимитам я пока не понял. Но блин, с такой штукой очень удобно статейки читать
кроме 03-mini есть claude 3.5 и Gemini 2
По лимитам я пока не понял. Но блин, с такой штукой очень удобно статейки читать
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4👏2
У нас тут бегущий по ризонингу
Ребята потренили Qwen 1.5B на то чтобы проходить не сильно сложные лабиринты 5x5. Но исходная моделька и этого не умела.
Нагенерили https://huggingface.co/datasets/jan-hq/Maze-Reasoning датасет со 100к лабиринтами, с COT трейсами.
И вот в блоге https://homebrew.ltd/blog/alpha-maze пишут про этот датасет. И там много подробностей с ревардами и сетапом.
Но вообще в статье пишут
AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO
https://arxiv.org/abs/2502.14669
что для SFT был 500к датасет для SFT, 16к для GRPO и евал был на 30к сете. Чего тогда только 100к выложили - не пон. Вполне возможно что разные эксперименты описываются.
На вход подается только текстовое описание задачи (но в датасете нагенерили и картинки). А моделька должна сгенерить в качестве ответа путь прохождения вида: <|down|><|left|><|left|><|down|><|right|><|right|><|right|>
Вообще всего в описании лабиринта участвуют следующие маркеры:
Координаты:
<row-col> (например, <0-0>, <2-4>) для идентификации каждой клетки в сетке.
Стены:
Токены, такие как <no_wall>, <up_wall>, <down_wall> и т.д., указывающие на наличие или отсутствие стен в каждом направлении. Это позволяет модели «видеть» структуру лабиринта.
Движение:
<up>, <down>, <left>, <right> для обозначения возможных действий, которые может совершить модель.
Специальные маркеры:
<origin> и <target> для обозначения начальной и конечной точек.
В статье пишут, что исходная моделька на евале показала 0% акураси.
Ребята сделали SFT на своем сете (добились 86%), а потом GRPO сверху 1600 шагов (подняли до 93%).
А вот если учить без ризонинга напрямую генерить решение - то акураси тот же 0% будет. То есть для решения лабиринта нужно учить решать задачу по шагам с размышлениями.
Надо больше экспериментов и с лабиринтами разных размеров.
Вообще прохождение лабиринтов - это большая задача и в обычном RLе, без ллмок, там много этим занимаются. И бОльшие лабиринты проходят и в 3D, ну у ллмок все впереди похоже.
Так понял. Ризонинг делать нада.
покайфу собираем статьи и всякое полезное в том числе и по ризонингу (много) тут: https://www.tgoop.com/researchim
Ребята потренили Qwen 1.5B на то чтобы проходить не сильно сложные лабиринты 5x5. Но исходная моделька и этого не умела.
Нагенерили https://huggingface.co/datasets/jan-hq/Maze-Reasoning датасет со 100к лабиринтами, с COT трейсами.
И вот в блоге https://homebrew.ltd/blog/alpha-maze пишут про этот датасет. И там много подробностей с ревардами и сетапом.
Но вообще в статье пишут
AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO
https://arxiv.org/abs/2502.14669
что для SFT был 500к датасет для SFT, 16к для GRPO и евал был на 30к сете. Чего тогда только 100к выложили - не пон. Вполне возможно что разные эксперименты описываются.
На вход подается только текстовое описание задачи (но в датасете нагенерили и картинки). А моделька должна сгенерить в качестве ответа путь прохождения вида: <|down|><|left|><|left|><|down|><|right|><|right|><|right|>
Вообще всего в описании лабиринта участвуют следующие маркеры:
Координаты:
<row-col> (например, <0-0>, <2-4>) для идентификации каждой клетки в сетке.
Стены:
Токены, такие как <no_wall>, <up_wall>, <down_wall> и т.д., указывающие на наличие или отсутствие стен в каждом направлении. Это позволяет модели «видеть» структуру лабиринта.
Движение:
<up>, <down>, <left>, <right> для обозначения возможных действий, которые может совершить модель.
Специальные маркеры:
<origin> и <target> для обозначения начальной и конечной точек.
В статье пишут, что исходная моделька на евале показала 0% акураси.
Ребята сделали SFT на своем сете (добились 86%), а потом GRPO сверху 1600 шагов (подняли до 93%).
А вот если учить без ризонинга напрямую генерить решение - то акураси тот же 0% будет. То есть для решения лабиринта нужно учить решать задачу по шагам с размышлениями.
Надо больше экспериментов и с лабиринтами разных размеров.
Вообще прохождение лабиринтов - это большая задача и в обычном RLе, без ллмок, там много этим занимаются. И бОльшие лабиринты проходят и в 3D, ну у ллмок все впереди похоже.
Так понял. Ризонинг делать нада.
покайфу собираем статьи и всякое полезное в том числе и по ризонингу (много) тут: https://www.tgoop.com/researchim
❤13👍6😁1
Ммм, там датасетик на 250к семплов под RL над LLMками и ризонинге подвезли. Все по матеше конечное
Это сборка из других открытых датасетов (на скринах) + 47к своих новых (назвали Big-Math-Reformulated).
Мол в открытых датасетах не всегда прям качественные данные, поэтому вот авторы хорошее пособирали и своего долили.
Big-Math-RL-Verified
https://huggingface.co/datasets/SynthLabsAI/Big-Math-RL-Verified
Как все это дело компилировали читаем здесь:
Big-Math: A Large-Scale, High-Quality Math Dataset for Reinforcement Learning in Language Models
https://arxiv.org/abs/2502.17387
PS собираемся и cобираем все крутое по нейронкам тут: https://www.tgoop.com/researchim
Это сборка из других открытых датасетов (на скринах) + 47к своих новых (назвали Big-Math-Reformulated).
Мол в открытых датасетах не всегда прям качественные данные, поэтому вот авторы хорошее пособирали и своего долили.
Big-Math-RL-Verified
https://huggingface.co/datasets/SynthLabsAI/Big-Math-RL-Verified
Как все это дело компилировали читаем здесь:
Big-Math: A Large-Scale, High-Quality Math Dataset for Reinforcement Learning in Language Models
https://arxiv.org/abs/2502.17387
PS собираемся и cобираем все крутое по нейронкам тут: https://www.tgoop.com/researchim
❤9🔥5👍3
Ребятки, не забываем про квен (он в России работает)
https://chat.qwen.ai/
Там вроде как апдейтик с думающим Qwen2.5-Max подвезли. Нравится.
Чтобы модельки размышляли нажимаем Thinking (QwQ)
https://chat.qwen.ai/
Там вроде как апдейтик с думающим Qwen2.5-Max подвезли. Нравится.
Чтобы модельки размышляли нажимаем Thinking (QwQ)
❤19👍9👌2
Forwarded from Love. Death. Transformers.
Member of Technical Staff LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ
Чем предстоит заниматься:
Дообучение и Оценка Sota llm, аттаки на blackbox модели
Заставлять LLM генерировать рецепты всего и тд
Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).
Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).
Оптимизация инференса (vLLM, SGLang, TRT).
Требования:
Опыт работы с LLM (архитектуры, RL, alignment).
Знание PyTorch/JAX.
Реальная практика с RL методами (DPO, RLHF — плюс).
Опыт с системами инференса (vLLM, kuber, docker).
Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.
Преимущество:
Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.
Условия:
Зарплата: 80K–130K usd + опционы.
Релокация в Париж🥐, полная занятость.
Работа с передовым стеком (AI research, model alignment).
Отклик:
https://forms.gle/z45WwdBTRHrd8inM9
Стартап в области безопасности ИИ
Чем предстоит заниматься:
Дообучение и Оценка Sota llm, аттаки на blackbox модели
Заставлять LLM генерировать рецепты всего и тд
Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).
Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).
Оптимизация инференса (vLLM, SGLang, TRT).
Требования:
Опыт работы с LLM (архитектуры, RL, alignment).
Знание PyTorch/JAX.
Реальная практика с RL методами (DPO, RLHF — плюс).
Опыт с системами инференса (vLLM, kuber, docker).
Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.
Преимущество:
Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.
Условия:
Зарплата: 80K–130K usd + опционы.
Релокация в Париж🥐, полная занятость.
Работа с передовым стеком (AI research, model alignment).
Отклик:
https://forms.gle/z45WwdBTRHrd8inM9
😁6👍4🥴3👎1
Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С красивыми табличками, схемками.
Много про разного вида RL который можно применять, цепочки рассуждений, test-time scaling и вот это все
Читаем!
LLM Post-Training: A Deep Dive into Reasoning Large Language Models
https://arxiv.org/abs/2502.21321
И конечно же листик пособирали, тоже приятный.
https://github.com/mbzuai-oryx/Awesome-LLM-Post-training
PS собираемся и собираем все крутое по нейронкам тут https://www.tgoop.com/researchim
Много про разного вида RL который можно применять, цепочки рассуждений, test-time scaling и вот это все
Читаем!
LLM Post-Training: A Deep Dive into Reasoning Large Language Models
https://arxiv.org/abs/2502.21321
И конечно же листик пособирали, тоже приятный.
https://github.com/mbzuai-oryx/Awesome-LLM-Post-training
PS собираемся и собираем все крутое по нейронкам тут https://www.tgoop.com/researchim
❤9👍9🔥3👏2
reinforcementlearningreinforcementlearningreinforcementlearning
Ну шьто? Эндрю Барто и Ричард Саттон получают премию Тьюринга за RL🥳 🕺 🥰
https://awards.acm.org/about/2024-turing
Я считаю что заслужили.
А отметить можно тут: http://incompleteideas.net/book/the-book-2nd.html
Ну шьто? Эндрю Барто и Ричард Саттон получают премию Тьюринга за RL
https://awards.acm.org/about/2024-turing
Я считаю что заслужили.
А отметить можно тут: http://incompleteideas.net/book/the-book-2nd.html
Please open Telegram to view this post
VIEW IN TELEGRAM
awards.acm.org
Andrew Barto and Richard Sutton are the recipients of the 2024 ACM A.M. Turing Award for developing the conceptual and algorithmic…
❤29🔥10🏆7⚡1
Квены дают QwQ-32B. Моделька с размышлениями, которую можно у себя развернуть.
Контекст 131,072 токенов
https://qwenlm.github.io/blog/qwq-32b/
https://huggingface.co/Qwen/QwQ-32B
4-bit AWQ: https://huggingface.co/Qwen/QwQ-32B-AWQ
GGUF 2-8bit кванты: https://huggingface.co/Qwen/QwQ-32B-GGUF
В целом дроп этот я ждал, ибо еще на той неделе в иксах и редитах писали что вот скоро чего-та будет.
Пишут много про РЛ.
Применяли РЛ, и дальше будут ЕЩЕ БОЛЬШЕ делать РЛ. (а мне большего-то и не надо...)
PS собираемся и собираем все крутое по ризонингу тут https://www.tgoop.com/researchim
Контекст 131,072 токенов
https://qwenlm.github.io/blog/qwq-32b/
https://huggingface.co/Qwen/QwQ-32B
4-bit AWQ: https://huggingface.co/Qwen/QwQ-32B-AWQ
GGUF 2-8bit кванты: https://huggingface.co/Qwen/QwQ-32B-GGUF
В целом дроп этот я ждал, ибо еще на той неделе в иксах и редитах писали что вот скоро чего-та будет.
Пишут много про РЛ.
Применяли РЛ, и дальше будут ЕЩЕ БОЛЬШЕ делать РЛ. (а мне большего-то и не надо...)
Мы начали с контрольной точки холодного старта и реализовали масштабируемый подход обучения с подкреплением (RL), основанный на вознаграждениях, зависящих от результатов. На начальном этапе мы масштабировали RL специально для задач по математике и программированию. Вместо того чтобы полагаться на традиционные модели вознаграждений, мы использовали проверку точности для математических задач, чтобы обеспечить правильность окончательных решений, и сервер выполнения кода для оценки успешности прохождения сгенерированного кода по заранее заданным тест-кейсам. По мере прохождения тренировочных эпизодов производительность в обеих областях демонстрировала постоянное улучшение. После первого этапа мы добавляем ещё один этап RL для общих возможностей. Он обучается с вознаграждениями от общей модели вознаграждений и некоторыми верификаторами, основанными на правилах. Мы обнаружили, что этот этап обучения с подкреплением с небольшим количеством шагов может повысить производительность других общих возможностей, таких как следование инструкциям, согласование с предпочтениями человека и производительность агента, без значительного снижения эффективности в математике и программировании.
Это знаменует собой первый шаг Qwen в масштабировании обучения с подкреплением (RL) для повышения способностей к рассуждению. В ходе этой работы мы не только увидели огромный потенциал масштабированного RL, но и осознали, насколько велики ещё неиспользованные возможности предварительно обученных языковых моделей. Разрабатывая следующее поколение Qwen, мы уверены, что объединение более мощных фундаментальных моделей с обучением с подкреплением, использующим масштабируемые вычислительные ресурсы, приблизит нас к достижению искусственного общего интеллекта (AGI). Кроме того, мы активно изучаем возможность интеграции агентов с обучением с подкреплением для обеспечения долгосрочного планирования и рассуждений, стремясь раскрыть ещё более высокий уровень интеллекта посредством масштабирования во время инференса.
PS собираемся и собираем все крутое по ризонингу тут https://www.tgoop.com/researchim
👍8🔥5❤2
AMD выложили 3B модельки трененые на MI300X
https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella-3B/README.html
https://github.com/AMD-AIG-AIMA/Instella
https://huggingface.co/amd/Instella-3B-Instruct
Надеюсь на обычных карточках тоже норм тюниться можно будет скоро. Хотя мб и щас можно там в репе инструкции лежат, но под mi300x
https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella-3B/README.html
https://github.com/AMD-AIG-AIMA/Instella
https://huggingface.co/amd/Instella-3B-Instruct
Надеюсь на обычных карточках тоже норм тюниться можно будет скоро. Хотя мб и щас можно там в репе инструкции лежат, но под mi300x
ROCm Blogs
Introducing Instella: New State-of-the-art Fully Open 3B Language Models
AMD is excited to announce Instella, a family of fully open state-of-the-art 3-billion-parameter language models (LMs). , In this blog we explain how the Instella models were trained, and how to access them.
🤔12❤4🙏1
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔8😁5🔥3👍2
Учим модельки решать интегралы через декомпозицию задач и обучение на более простых вариантах. С RLем конечно же.
Подход называется Learning through Autonomous Difficulty-Driven Example Recursion (LADDER).
Моделька генерирует более простые версии сложных задач, которые становятся всё проще на каждом шаге. Возникает градация сложности и моделька учится сначала на самых простых вариантах, а потом переходит ко все более сложным.
Генерация вариантов (Variant Generation) -
Для каждой сложной задачи модель генерирует упрощенные варианты. Эти варианты организуются в виде дерева, где каждая ветка представляет переход от сложной задачи к её упрощённой версии.
Используются заранее подготовленные математические трансформации ( упрощение показателей, замена функций и т.д.).
Применяются техники для увеличения разнообразия вроде temperature cycling (меняют температуру от 0.8 до1.4) и persona-based prompting (модель пытается вести себя как математик).
Рекурсивный процесс: генерация идет по уровням (ограничено, например, тремя уровнями), чтобы сохранить релевантность задачи.
Проверка решения (Solution Verification) -
Для проверки корректности решений применяется численная интеграция:
Решения сравниваются с исходным интегралом по пяти точкам на интервале от -10 до 10.
Используются адаптивные квадратурные методы, обработка особенностей функций или потенциальные численные ошибки.
Еще верификация нужная быстрая – введены ограничения по времени (таймауты) и методика повторного отбора точек при возникновении проблем.
Учимся с RLем (GRPO).
Награды:
Accuracy reward - Проверка правильности решения через численную верификацию.
Format reward - Дополнительное вознаграждение за правильное форматирование ответа (вроде заключения ответа в специальные теги <ANSWER></ANSWER>).
т.е. учим модельку и правильно решать и формат соблюдать. В целом так щас часто и делают.
применяется еще Test-Time Reinforcement Learning (TTRL):
Даже после обучения по LADDER остаются задачи, на которые модель отвечает неверно. TTRL позволяет на этапе тестирования генерировать дополнительные варианты конкретной проблемной задачи и проводить короткое обучение RLем, чтобы моделька подучилась именно на этом примере.
Количество шагов TTRL варьируется от 3 до 30 в зависимости от задачи авторы пишут.
С LADDER Llama 7B улучшилась с 2% до 73% (это Pass@1), а применение еще TTRL улучшило с 73% до 90% на MIT Integration Bee 2025 (но с TTRL это Pass@100, как я понял - т.е. нужно сгенерить 100 решений чтобы решить задачку).
Так понял.
В общем - важно уметь декомпозить и упрощать задачки (ну и усложнять тоже важно уметь).
Теперь надо пробовать этот подход к другим задачкам. Конечно эффективность будет зависеть от того насколько умная базовая моделька
LADDER: Self-Improving LLMs Through Recursive Problem Decomposition
https://arxiv.org/abs/2503.00735
PS всякое крутое по rlю и ризонингам собираем (а еще всякие там проектики делаем) в https://www.tgoop.com/researchim
Подход называется Learning through Autonomous Difficulty-Driven Example Recursion (LADDER).
Моделька генерирует более простые версии сложных задач, которые становятся всё проще на каждом шаге. Возникает градация сложности и моделька учится сначала на самых простых вариантах, а потом переходит ко все более сложным.
Генерация вариантов (Variant Generation) -
Для каждой сложной задачи модель генерирует упрощенные варианты. Эти варианты организуются в виде дерева, где каждая ветка представляет переход от сложной задачи к её упрощённой версии.
Используются заранее подготовленные математические трансформации ( упрощение показателей, замена функций и т.д.).
Применяются техники для увеличения разнообразия вроде temperature cycling (меняют температуру от 0.8 до1.4) и persona-based prompting (модель пытается вести себя как математик).
Рекурсивный процесс: генерация идет по уровням (ограничено, например, тремя уровнями), чтобы сохранить релевантность задачи.
Проверка решения (Solution Verification) -
Для проверки корректности решений применяется численная интеграция:
Решения сравниваются с исходным интегралом по пяти точкам на интервале от -10 до 10.
Используются адаптивные квадратурные методы, обработка особенностей функций или потенциальные численные ошибки.
Еще верификация нужная быстрая – введены ограничения по времени (таймауты) и методика повторного отбора точек при возникновении проблем.
Учимся с RLем (GRPO).
Награды:
Accuracy reward - Проверка правильности решения через численную верификацию.
Format reward - Дополнительное вознаграждение за правильное форматирование ответа (вроде заключения ответа в специальные теги <ANSWER></ANSWER>).
т.е. учим модельку и правильно решать и формат соблюдать. В целом так щас часто и делают.
применяется еще Test-Time Reinforcement Learning (TTRL):
Даже после обучения по LADDER остаются задачи, на которые модель отвечает неверно. TTRL позволяет на этапе тестирования генерировать дополнительные варианты конкретной проблемной задачи и проводить короткое обучение RLем, чтобы моделька подучилась именно на этом примере.
Количество шагов TTRL варьируется от 3 до 30 в зависимости от задачи авторы пишут.
С LADDER Llama 7B улучшилась с 2% до 73% (это Pass@1), а применение еще TTRL улучшило с 73% до 90% на MIT Integration Bee 2025 (но с TTRL это Pass@100, как я понял - т.е. нужно сгенерить 100 решений чтобы решить задачку).
Так понял.
В общем - важно уметь декомпозить и упрощать задачки (ну и усложнять тоже важно уметь).
Теперь надо пробовать этот подход к другим задачкам. Конечно эффективность будет зависеть от того насколько умная базовая моделька
LADDER: Self-Improving LLMs Through Recursive Problem Decomposition
https://arxiv.org/abs/2503.00735
PS всякое крутое по rlю и ризонингам собираем (а еще всякие там проектики делаем) в https://www.tgoop.com/researchim
🔥21👍6❤4😱3👏2🤔1