Полезный листик на гитхабе в котором собирают статьи по ризонингам и рлю для llms, агентам и вот этому всему
https://github.com/open-thought/system-2-research
а в телеге собираем полезное в https://www.tgoop.com/researchim
https://github.com/open-thought/system-2-research
а в телеге собираем полезное в https://www.tgoop.com/researchim
GitHub
GitHub - open-thought/system-2-research: System 2 Reasoning Link Collection
System 2 Reasoning Link Collection. Contribute to open-thought/system-2-research development by creating an account on GitHub.
🔥16👍2✍1
HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить пайплайны для воспроизведения
Хотят нагенерить данных из R1 и дистильнуть в свои модельки, потренить аналог R1-Zero (будет Open R1-Zero), а в конце получить Open R1
https://github.com/huggingface/open-r1
Хотят нагенерить данных из R1 и дистильнуть в свои модельки, потренить аналог R1-Zero (будет Open R1-Zero), а в конце получить Open R1
https://github.com/huggingface/open-r1
Мы будем использовать техотчет DeepSeek-R1 в качестве руководства, который можно примерно разделить на три основных этапа:
* Реплицировать модели R1-Distill путем дистилляции высококачественного корпуса из DeepSeek-R1.
* Реплицировать чистый RL-пайплайн, который использовался DeepSeek для создания R1-Zero. Это, вероятно, потребует создания новых крупномасштабных датасетов для математики, рассуждений и кода.
* Продемонстрировать возможность перехода от базовой модели к RL-тюнингу через многоэтапное обучение.
❤18🔥10👍7
А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая RLем чисто)
Делают поверх небольших Qwen2.5 моделек 0.5B, 1.5B, 3B
Пишут что 3B base норм учится
https://github.com/Jiayi-Pan/TinyZero
Делают поверх небольших Qwen2.5 моделек 0.5B, 1.5B, 3B
Пишут что 3B base норм учится
https://github.com/Jiayi-Pan/TinyZero
GitHub
GitHub - Jiayi-Pan/TinyZero: Minimal reproduction of DeepSeek R1-Zero
Minimal reproduction of DeepSeek R1-Zero. Contribute to Jiayi-Pan/TinyZero development by creating an account on GitHub.
👍13🔥5👏2
А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил AlphaStar) кстати показывал вот такие слайдики на RL Conference в августе.
График внимание к RL и время. Суперхуман ии будет если вот очень много внимания уделять, получается🕺
Взял фоты тут:
https://x.com/pcastr/status/1822636670220431485
График внимание к RL и время. Суперхуман ии будет если вот очень много внимания уделять, получается
Взял фоты тут:
https://x.com/pcastr/status/1822636670220431485
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🎉5🔥1
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Алексей Трепецкий "Введение в RL алгоритм Actor-Critic"
⌚️ Среда (29 января 2025) 19.00 (по Москве)
Actor-Critic — популярная концепция в обучении с подкреплением, позволяющая увеличить эффективность получаемых данных и сократить время обучения политике, основанная на объединении policy и value подходов.
На семинаре мы подробно разберем, как устроен метод Actor-Critic, зачем необходимо совместное обучение политики и функции ценности и как это улучшает алгоритм REINFORCE.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
👨🔬 Алексей Трепецкий "Введение в RL алгоритм Actor-Critic"
⌚️ Среда (29 января 2025) 19.00 (по Москве)
Actor-Critic — популярная концепция в обучении с подкреплением, позволяющая увеличить эффективность получаемых данных и сократить время обучения политике, основанная на объединении policy и value подходов.
На семинаре мы подробно разберем, как устроен метод Actor-Critic, зачем необходимо совместное обучение политики и функции ценности и как это улучшает алгоритм REINFORCE.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
❤8
Мнение
DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало казаться, что никто и не собирается уже. Основной кайф что многое опенсорсят. Остальные могут повторять и ресечить мощно.
Кроме них есть Qwen, Mistral которые очень большие молодцы, много выкладывают. Mistral Nemo вон какой крутой, квены постоянно тюнят и делают локальные модельки.
OpenAI - локомотив. У них суперребятки (хотя чот в последнее время куча народу ушло, да? Зачем?), у них много ресурсов, старгейт вон. Кажется, что они смогут в любом случае. Часто цены снижают, модельки обновляют на более новые, RL двигают (это кстати они в очередной раз сделали RL великим). Но вот в РФ допустим они просто так не работают...
Мне лично гораздо ценнее иметь крутую локальную модельку, чем где-то там в облаке.
Кажется, что для всех лучше если они будут там друг друга поджимать, выкладывать модельки и цены снижать. Поэтому просто кайфуем.
Я кстати за DeepMind😃 (Что у них там вообще происходит?)
Где можно просто початиться:
Дипсик - https://www.deepseek.com/ (но щас им плохо, толком не работает, надеюсь полегчает)
Квен - https://chat.qwenlm.ai/
Mistral - https://chat.mistral.ai/
DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало казаться, что никто и не собирается уже. Основной кайф что многое опенсорсят. Остальные могут повторять и ресечить мощно.
Кроме них есть Qwen, Mistral которые очень большие молодцы, много выкладывают. Mistral Nemo вон какой крутой, квены постоянно тюнят и делают локальные модельки.
OpenAI - локомотив. У них суперребятки (хотя чот в последнее время куча народу ушло, да? Зачем?), у них много ресурсов, старгейт вон. Кажется, что они смогут в любом случае. Часто цены снижают, модельки обновляют на более новые, RL двигают (это кстати они в очередной раз сделали RL великим). Но вот в РФ допустим они просто так не работают...
Мне лично гораздо ценнее иметь крутую локальную модельку, чем где-то там в облаке.
Кажется, что для всех лучше если они будут там друг друга поджимать, выкладывать модельки и цены снижать. Поэтому просто кайфуем.
Я кстати за DeepMind
Где можно просто початиться:
Дипсик - https://www.deepseek.com/ (но щас им плохо, толком не работает, надеюсь полегчает)
Квен - https://chat.qwenlm.ai/
Mistral - https://chat.mistral.ai/
Please open Telegram to view this post
VIEW IN TELEGRAM
Deepseek
DeepSeek | 深度求索
深度求索(DeepSeek),成立于2023年,专注于研究世界领先的通用人工智能底层模型与技术,挑战人工智能前沿性难题。基于自研训练框架、自建智算集群和万卡算力等资源,深度求索团队仅用半年时间便已发布并开源多个百亿级参数大模型,如DeepSeek-LLM通用大语言模型、DeepSeek-Coder代码大模型,并在2024年1月率先开源国内首个MoE大模型(DeepSeek-MoE),各大模型在公开评测榜单及真实样本外的泛化效果均有超越同级别模型的出色表现。和 DeepSeek AI 对话,轻松接入 API。
👍12💯4❤2👏2
Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl
https://github.com/huggingface/trl/blob/main/docs/source/grpo_trainer.md
Вообще оригинальная статья с этим алгоритмом выходила 5 февраля 2024, но заимплементили ток щас (почему??):
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
https://arxiv.org/abs/2402.03300v3
https://github.com/huggingface/trl/blob/main/docs/source/grpo_trainer.md
Вообще оригинальная статья с этим алгоритмом выходила 5 февраля 2024, но заимплементили ток щас (почему??):
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
https://arxiv.org/abs/2402.03300v3
GitHub
trl/docs/source/grpo_trainer.md at main · huggingface/trl
Train transformer language models with reinforcement learning. - huggingface/trl
👍8🔥5❤1
Ребята, я зашел на сайт дипсиков и они и правда упоминают в коде OpenAI 😱 😱 😱
Вот так вот верь им теперь. Думал RL придумали свой и вон какие крутые
https://api-docs.deepseek.com/
Вот так вот верь им теперь. Думал RL придумали свой и вон какие крутые
https://api-docs.deepseek.com/
Please open Telegram to view this post
VIEW IN TELEGRAM
😁37🤣12👏2
А вот есть у нас SFT (Supervised fine-tuning) и RL (reinforcement learning) на посттрейне ллмов.
Вот бы померить а есть ли там разница с обобщающими способностями и запоминанием после этих тюнов.
Сделали бенч из двух задачек. В каждой задачке был текстовый вариант и визуальный вариант.
The V-IRL Environment (первая картинка):
Тестируют способности к пространственному рассуждению и навигации в открытом мире с использованием реалистичных визуальных данных.
Цель — добраться до целевого местоположения, следуя набору инструкций.
Основная визуальная сложность в V-IRL заключается в распознавании различных ориентиров на основе визуальных наблюдений перед выполнением действия
Тренировались на навигации по Нью-Йорку, а тестились на бенче из навигаций по разным городам.
The GeneralPoints Environment: (Пример на 2м скрине)
Цель — составить уравнение, которое равно заданному числу (по умолчанию 24), используя все 4 числа с карт ровно один раз.
Еще нужно интерпретировать буквы в числа на картах: 'J'->'11', 'Q'->'12' и 'K' ->'13' (либо все они как 10 считаются).
Тут тренировали тоже и текстовые варианты и визуальные, используя черные масти для трена, красные для теста.
3 и 4 скрин результаты. После RLя лучше справляется с задачами которые не видел на трене, после SFT работает хуже на невиданных задачах.
SFT помогает запоминать информацию, а RL помогает генерализоваться (прям как строчкой ниже написано)
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
https://arxiv.org/abs/2501.17161v1
https://tianzhechu.com/SFTvsRL/
кстати для статей по RLю и многому другому есть https://www.tgoop.com/researchim
Вот бы померить а есть ли там разница с обобщающими способностями и запоминанием после этих тюнов.
Сделали бенч из двух задачек. В каждой задачке был текстовый вариант и визуальный вариант.
The V-IRL Environment (первая картинка):
Тестируют способности к пространственному рассуждению и навигации в открытом мире с использованием реалистичных визуальных данных.
Цель — добраться до целевого местоположения, следуя набору инструкций.
Основная визуальная сложность в V-IRL заключается в распознавании различных ориентиров на основе визуальных наблюдений перед выполнением действия
Тренировались на навигации по Нью-Йорку, а тестились на бенче из навигаций по разным городам.
The GeneralPoints Environment: (Пример на 2м скрине)
Цель — составить уравнение, которое равно заданному числу (по умолчанию 24), используя все 4 числа с карт ровно один раз.
Еще нужно интерпретировать буквы в числа на картах: 'J'->'11', 'Q'->'12' и 'K' ->'13' (либо все они как 10 считаются).
Тут тренировали тоже и текстовые варианты и визуальные, используя черные масти для трена, красные для теста.
3 и 4 скрин результаты. После RLя лучше справляется с задачами которые не видел на трене, после SFT работает хуже на невиданных задачах.
SFT помогает запоминать информацию, а RL помогает генерализоваться (прям как строчкой ниже написано)
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
https://arxiv.org/abs/2501.17161v1
https://tianzhechu.com/SFTvsRL/
кстати для статей по RLю и многому другому есть https://www.tgoop.com/researchim
👍9❤3🔥2
Forwarded from Love. Death. Transformers.
Инженер LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ
Чем предстоит заниматься:
Дообучение и Оценка Sota llm, аттаки на blackbox модели
Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).
Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).
Оптимизация инференса (vLLM, SGLang, TRT).
Требования:
Опыт работы с LLM (архитектуры, RL, alignment).
Знание PyTorch/JAX.
Реальная практика с RL методами (DPO, RLHF — плюс).
Опыт с системами инференса (vLLM, kuber, docker).
Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.
Преимущество:
Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.
Условия:
Зарплата: 80K–130K usd + опционы.
Релокация в Париж🥐, полная занятость.
Работа с передовым стеком (AI research, model alignment).
Отклик:
https://forms.gle/z45WwdBTRHrd8inM9
Стартап в области безопасности ИИ
Чем предстоит заниматься:
Дообучение и Оценка Sota llm, аттаки на blackbox модели
Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).
Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).
Оптимизация инференса (vLLM, SGLang, TRT).
Требования:
Опыт работы с LLM (архитектуры, RL, alignment).
Знание PyTorch/JAX.
Реальная практика с RL методами (DPO, RLHF — плюс).
Опыт с системами инференса (vLLM, kuber, docker).
Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.
Преимущество:
Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.
Условия:
Зарплата: 80K–130K usd + опционы.
Релокация в Париж🥐, полная занятость.
Работа с передовым стеком (AI research, model alignment).
Отклик:
https://forms.gle/z45WwdBTRHrd8inM9
👍5🤔3❤1
Агенты ИИ | AGI_and_RL
HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить пайплайны для воспроизведения Хотят нагенерить данных из R1 и дистильнуть в свои модельки, потренить аналог R1-Zero (будет Open R1-Zero), а в конце получить Open R1 https://github…
Ребятки из HF выкатили небольшой постик по текущему прогрессу с Open-R1
https://huggingface.co/blog/open-r1/update-1
https://huggingface.co/blog/open-r1/update-1
huggingface.co
Open-R1: Update #1
A Blog post by Open R1 on Hugging Face
❤5👍2🔥2
Forwarded from Ruadaptная комната
Первая экспериментальная Ruadapt ризонинг модель:
RuadaptQwen2.5-14B-R1-distill-preview-v1
Это адаптация модели deepseek-ai/DeepSeek-R1-Distill-Qwen-14B с SFT шагом после LEP на смеси датасетов kristaller486/Nebo-T1-Russian (все ру, 12-13 т.) и Egor-AI/CoT-XLang (2 т. случайных англ.) Во время SFT шага никаких системных промптов не использовалось, а рассуждения оборачиваются в <think> </think> теги. Модель иногда уходит в повторы, так что вооружаемся repetition_penalty в таких случаях.
Так как это ризонинг модель, а под рукой у меня нет датасетов для оценки качества подобных моделей, качество мы пока не оценивали. Если у кого-то есть бенчмарк / датасет на примете - пишите в комментариях.
В чем плюс данной модели - ризонинг идет стабильно на русском, без иероглифов в принципе, а скорость генерации русскоязычного текста повышена, так как это Ruadapt. Фидбек как всегда крайне приветстветствуется.
Временно (на вечер) поднял Space с данной моделькой, можно потестировать в нем:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5
Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1-GGUF
RuadaptQwen2.5-14B-R1-distill-preview-v1
Это адаптация модели deepseek-ai/DeepSeek-R1-Distill-Qwen-14B с SFT шагом после LEP на смеси датасетов kristaller486/Nebo-T1-Russian (все ру, 12-13 т.) и Egor-AI/CoT-XLang (2 т. случайных англ.) Во время SFT шага никаких системных промптов не использовалось, а рассуждения оборачиваются в <think> </think> теги. Модель иногда уходит в повторы, так что вооружаемся repetition_penalty в таких случаях.
Так как это ризонинг модель, а под рукой у меня нет датасетов для оценки качества подобных моделей, качество мы пока не оценивали. Если у кого-то есть бенчмарк / датасет на примете - пишите в комментариях.
В чем плюс данной модели - ризонинг идет стабильно на русском, без иероглифов в принципе, а скорость генерации русскоязычного текста повышена, так как это Ruadapt. Фидбек как всегда крайне приветстветствуется.
Временно (на вечер) поднял Space с данной моделькой, можно потестировать в нем:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5
Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1-GGUF
🔥10👍4🤔1
Forwarded from black_samorez
Претренить нужно в INT4
Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.
Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.
Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.
Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!
Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.
Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.
Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.
Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.
Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!
Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.
👍11🥰6❤2🔥2
Тут потюнили 1.5B модельку и авторы пишут, что на некоторых бенчах смогли выбить результы больше чем у O1-Preview.
Ребятам для тюна потребовало 3,800 часов на A100. Взяли они уже претрененую Deepseek-R1-Distilled-Qwen-1.5B модельку. В процессе тюна они увеличивали размер контекстного окна с 8к до 16к, а потом до 24к.
Ревард:
1 — если ответ модели корректный и его удалось нормально спарсить;
0 — если модель ответила неправильно или не соблюдала формат (например, отсутствуют разделители <think> и </think>)
Данные - взяли AIME с 1984 по 2023 годы, задачи AMC до 2023 года, а также вопросы из наборов Omni-MATH и Still. Ответы из AMC и AIME доставали с помощью gemini-1.5-pro-002, удаляли дубликаты и отфильтровали некоторые вопросы ответы на которые пришлось бы оценивать с помощью другой ллмку (а это накладно на трене).
В конце получили 40000 пар задача-ответ (данные выложили, внизу будут по ссылке).
В результате трена 1.5B моделька выдала 43,1% точности Pass@1 на AIME2024 (против 28,8% у базовой модельки), .
Что они еще отмечают:
*Пока тестировали Deepseek-R1-Distilled-Qwen-1.5B (исходную) на AIME2024 то увидели, что неверные ответы в среднем содержат в три раза больше токенов, чем правильные (20 346 против 6 395), и вот мол если сразу начинать RL тюн с длинным контекстом, то оно вот будет длинные и неправильные ответы давать, поэтому может быть полезным увеличивать контекст постепенно.
*Достижение уровня O1-preview получилось лишь с расширением контекста до 24K: после того как расширили до 16к контексти и тренили 500 шагов - ревард вышел на плато в какой-то момент (0.625) и только после расширения контекста до 24к удалось преодолеть 40% AIME (через 50 шагов трена с 24к контекстом) и выйти на 43% в дальнейшем (еще через 200 шагов).
В целом прогресс шел так:
*изначальная моделька выдавала 28.9% на AIME, при инициализации с 8К окном трена упала до 22% затем через тысячу шагов поднялась до 33.9% при этом сильно укоротив среднюю длину ответов (корректные в среднем 6396 -> 3661.2, некорректные 20346.3 -> 6976.8)
*затем 500 шагов с 16к контекстом удалось выбить 38% AIME но средняя длина ответа увеличилась с 3500 токенов до 5500;
*еще 250 шагов с 24к контекстом и тут удалось дойти до 43.1% AIME.
И еще ребята считают что надо и качественный SFT делать и RL потом :)
Так понял.
Кстати, сначала собираю подобные проекты и статьи в ресечим: https://www.tgoop.com/researchim а потом уже тут рассказываю.
Ссылки по проекту:
https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2
https://github.com/agentica-project
Код и Датасет в репе лежит:
https://github.com/agentica-project/deepscaler
Моделька:
https://huggingface.co/agentica-org/DeepScaleR-1.5B-Preview
Ребятам для тюна потребовало 3,800 часов на A100. Взяли они уже претрененую Deepseek-R1-Distilled-Qwen-1.5B модельку. В процессе тюна они увеличивали размер контекстного окна с 8к до 16к, а потом до 24к.
Ревард:
1 — если ответ модели корректный и его удалось нормально спарсить;
0 — если модель ответила неправильно или не соблюдала формат (например, отсутствуют разделители <think> и </think>)
Данные - взяли AIME с 1984 по 2023 годы, задачи AMC до 2023 года, а также вопросы из наборов Omni-MATH и Still. Ответы из AMC и AIME доставали с помощью gemini-1.5-pro-002, удаляли дубликаты и отфильтровали некоторые вопросы ответы на которые пришлось бы оценивать с помощью другой ллмку (а это накладно на трене).
В конце получили 40000 пар задача-ответ (данные выложили, внизу будут по ссылке).
В результате трена 1.5B моделька выдала 43,1% точности Pass@1 на AIME2024 (против 28,8% у базовой модельки), .
Что они еще отмечают:
*Пока тестировали Deepseek-R1-Distilled-Qwen-1.5B (исходную) на AIME2024 то увидели, что неверные ответы в среднем содержат в три раза больше токенов, чем правильные (20 346 против 6 395), и вот мол если сразу начинать RL тюн с длинным контекстом, то оно вот будет длинные и неправильные ответы давать, поэтому может быть полезным увеличивать контекст постепенно.
*Достижение уровня O1-preview получилось лишь с расширением контекста до 24K: после того как расширили до 16к контексти и тренили 500 шагов - ревард вышел на плато в какой-то момент (0.625) и только после расширения контекста до 24к удалось преодолеть 40% AIME (через 50 шагов трена с 24к контекстом) и выйти на 43% в дальнейшем (еще через 200 шагов).
В целом прогресс шел так:
*изначальная моделька выдавала 28.9% на AIME, при инициализации с 8К окном трена упала до 22% затем через тысячу шагов поднялась до 33.9% при этом сильно укоротив среднюю длину ответов (корректные в среднем 6396 -> 3661.2, некорректные 20346.3 -> 6976.8)
*затем 500 шагов с 16к контекстом удалось выбить 38% AIME но средняя длина ответа увеличилась с 3500 токенов до 5500;
*еще 250 шагов с 24к контекстом и тут удалось дойти до 43.1% AIME.
И еще ребята считают что надо и качественный SFT делать и RL потом :)
Так понял.
Кстати, сначала собираю подобные проекты и статьи в ресечим: https://www.tgoop.com/researchim а потом уже тут рассказываю.
Ссылки по проекту:
https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2
https://github.com/agentica-project
Код и Датасет в репе лежит:
https://github.com/agentica-project/deepscaler
Моделька:
https://huggingface.co/agentica-org/DeepScaleR-1.5B-Preview
50🔥7👾3❤2