Telegram Web
Полезный листик на гитхабе в котором собирают статьи по ризонингам и рлю для llms, агентам и вот этому всему

https://github.com/open-thought/system-2-research

а в телеге собираем полезное в https://www.tgoop.com/researchim
🔥16👍21
HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить пайплайны для воспроизведения

Хотят нагенерить данных из R1 и дистильнуть в свои модельки, потренить аналог R1-Zero (будет Open R1-Zero), а в конце получить Open R1

https://github.com/huggingface/open-r1

Мы будем использовать техотчет DeepSeek-R1 в качестве руководства, который можно примерно разделить на три основных этапа:

* Реплицировать модели R1-Distill путем дистилляции высококачественного корпуса из DeepSeek-R1.
* Реплицировать чистый RL-пайплайн, который использовался DeepSeek для создания R1-Zero. Это, вероятно, потребует создания новых крупномасштабных датасетов для математики, рассуждений и кода.
* Продемонстрировать возможность перехода от базовой модели к RL-тюнингу через многоэтапное обучение.
18🔥10👍7
А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая RLем чисто)

Делают поверх небольших Qwen2.5 моделек 0.5B, 1.5B, 3B

Пишут что 3B base норм учится

https://github.com/Jiayi-Pan/TinyZero
👍13🔥5👏2
А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил AlphaStar) кстати показывал вот такие слайдики на RL Conference в августе.

График внимание к RL и время. Суперхуман ии будет если вот очень много внимания уделять, получается 🕺

Взял фоты тут:
https://x.com/pcastr/status/1822636670220431485
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🎉5🔥1
🚀 @SBERLOGASCI webinar on data science:
👨‍🔬 Алексей Трепецкий "Введение в RL алгоритм Actor-Critic"
⌚️ Среда (29 января 2025) 19.00 (по Москве)


Actor-Critic — популярная концепция в обучении с подкреплением, позволяющая увеличить эффективность получаемых данных и сократить время обучения политике, основанная на объединении policy и value подходов.
На семинаре мы подробно разберем, как устроен метод Actor-Critic, зачем необходимо совместное обучение политики и функции ценности и как это улучшает алгоритм REINFORCE.


Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
8
Кто?
Anonymous Poll
59%
DeepSeek
41%
OpenAI
Мнение

DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало казаться, что никто и не собирается уже. Основной кайф что многое опенсорсят. Остальные могут повторять и ресечить мощно.
Кроме них есть Qwen, Mistral которые очень большие молодцы, много выкладывают. Mistral Nemo вон какой крутой, квены постоянно тюнят и делают локальные модельки.

OpenAI - локомотив. У них суперребятки (хотя чот в последнее время куча народу ушло, да? Зачем?), у них много ресурсов, старгейт вон. Кажется, что они смогут в любом случае. Часто цены снижают, модельки обновляют на более новые, RL двигают (это кстати они в очередной раз сделали RL великим). Но вот в РФ допустим они просто так не работают...

Мне лично гораздо ценнее иметь крутую локальную модельку, чем где-то там в облаке.

Кажется, что для всех лучше если они будут там друг друга поджимать, выкладывать модельки и цены снижать. Поэтому просто кайфуем.

Я кстати за DeepMind 😃 (Что у них там вообще происходит?)

Где можно просто початиться:

Дипсик - https://www.deepseek.com/ (но щас им плохо, толком не работает, надеюсь полегчает)
Квен - https://chat.qwenlm.ai/
Mistral - https://chat.mistral.ai/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12💯42👏2
Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl

https://github.com/huggingface/trl/blob/main/docs/source/grpo_trainer.md

Вообще оригинальная статья с этим алгоритмом выходила 5 февраля 2024, но заимплементили ток щас (почему??):

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
https://arxiv.org/abs/2402.03300v3
👍8🔥51
Ребята, я зашел на сайт дипсиков и они и правда упоминают в коде OpenAI 😱😱😱
Вот так вот верь им теперь. Думал RL придумали свой и вон какие крутые

https://api-docs.deepseek.com/
Please open Telegram to view this post
VIEW IN TELEGRAM
😁37🤣12👏2
А вот есть у нас SFT (Supervised fine-tuning) и RL (reinforcement learning) на посттрейне ллмов.
Вот бы померить а есть ли там разница с обобщающими способностями и запоминанием после этих тюнов.

Сделали бенч из двух задачек. В каждой задачке был текстовый вариант и визуальный вариант.

The V-IRL Environment (первая картинка):
Тестируют способности к пространственному рассуждению и навигации в открытом мире с использованием реалистичных визуальных данных.
Цель — добраться до целевого местоположения, следуя набору инструкций.
Основная визуальная сложность в V-IRL заключается в распознавании различных ориентиров на основе визуальных наблюдений перед выполнением действия
Тренировались на навигации по Нью-Йорку, а тестились на бенче из навигаций по разным городам.

The GeneralPoints Environment: (Пример на 2м скрине)
Цель — составить уравнение, которое равно заданному числу (по умолчанию 24), используя все 4 числа с карт ровно один раз.
Еще нужно интерпретировать буквы в числа на картах: 'J'->'11', 'Q'->'12' и 'K' ->'13' (либо все они как 10 считаются).
Тут тренировали тоже и текстовые варианты и визуальные, используя черные масти для трена, красные для теста.

3 и 4 скрин результаты. После RLя лучше справляется с задачами которые не видел на трене, после SFT работает хуже на невиданных задачах.

SFT помогает запоминать информацию, а RL помогает генерализоваться (прям как строчкой ниже написано)

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
https://arxiv.org/abs/2501.17161v1

https://tianzhechu.com/SFTvsRL/

кстати для статей по RLю и многому другому есть https://www.tgoop.com/researchim
👍93🔥2
Инженер LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ

Чем предстоит заниматься:

Дообучение и Оценка Sota llm, аттаки на blackbox модели

Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).

Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).

Оптимизация инференса (vLLM, SGLang, TRT).

Требования:

Опыт работы с LLM (архитектуры, RL, alignment).

Знание PyTorch/JAX.

Реальная практика с RL методами (DPO, RLHF — плюс).

Опыт с системами инференса (vLLM, kuber, docker).

Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.

Преимущество:

Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.

Условия:

Зарплата: 80K–130K usd + опционы.

Релокация в Париж🥐, полная занятость.

Работа с передовым стеком (AI research, model alignment).

Отклик:
https://forms.gle/z45WwdBTRHrd8inM9
👍5🤔31
Первая экспериментальная Ruadapt ризонинг модель:
RuadaptQwen2.5-14B-R1-distill-preview-v1

Это адаптация модели deepseek-ai/DeepSeek-R1-Distill-Qwen-14B с SFT шагом после LEP на смеси датасетов kristaller486/Nebo-T1-Russian (все ру, 12-13 т.) и Egor-AI/CoT-XLang (2 т. случайных англ.) Во время SFT шага никаких системных промптов не использовалось, а рассуждения оборачиваются в <think> </think> теги. Модель иногда уходит в повторы, так что вооружаемся repetition_penalty в таких случаях.

Так как это ризонинг модель, а под рукой у меня нет датасетов для оценки качества подобных моделей, качество мы пока не оценивали. Если у кого-то есть бенчмарк / датасет на примете - пишите в комментариях.

В чем плюс данной модели - ризонинг идет стабильно на русском, без иероглифов в принципе, а скорость генерации русскоязычного текста повышена, так как это Ruadapt. Фидбек как всегда крайне приветстветствуется.

Временно (на вечер) поднял Space с данной моделькой, можно потестировать в нем:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5

Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1-GGUF
🔥10👍4🤔1
Forwarded from black_samorez
Претренить нужно в INT4

Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.

Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.

Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.

Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!

Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.
👍11🥰62🔥2
Тут потюнили 1.5B модельку и авторы пишут, что на некоторых бенчах смогли выбить результы больше чем у O1-Preview.
Ребятам для тюна потребовало 3,800 часов на A100. Взяли они уже претрененую Deepseek-R1-Distilled-Qwen-1.5B модельку. В процессе тюна они увеличивали размер контекстного окна с 8к до 16к, а потом до 24к.

Ревард:

1 — если ответ модели корректный и его удалось нормально спарсить;
0 — если модель ответила неправильно или не соблюдала формат (например, отсутствуют разделители <think> и </think>)

Данные - взяли AIME с 1984 по 2023 годы, задачи AMC до 2023 года, а также вопросы из наборов Omni-MATH и Still. Ответы из AMC и AIME доставали с помощью gemini-1.5-pro-002, удаляли дубликаты и отфильтровали некоторые вопросы ответы на которые пришлось бы оценивать с помощью другой ллмку (а это накладно на трене).

В конце получили 40000 пар задача-ответ (данные выложили, внизу будут по ссылке).

В результате трена 1.5B моделька выдала 43,1% точности Pass@1 на AIME2024 (против 28,8% у базовой модельки), .

Что они еще отмечают:

*Пока тестировали Deepseek-R1-Distilled-Qwen-1.5B (исходную) на AIME2024 то увидели, что неверные ответы в среднем содержат в три раза больше токенов, чем правильные (20 346 против 6 395), и вот мол если сразу начинать RL тюн с длинным контекстом, то оно вот будет длинные и неправильные ответы давать, поэтому может быть полезным увеличивать контекст постепенно.

*Достижение уровня O1-preview получилось лишь с расширением контекста до 24K: после того как расширили до 16к контексти и тренили 500 шагов - ревард вышел на плато в какой-то момент (0.625) и только после расширения контекста до 24к удалось преодолеть 40% AIME (через 50 шагов трена с 24к контекстом) и выйти на 43% в дальнейшем (еще через 200 шагов).

В целом прогресс шел так:
*изначальная моделька выдавала 28.9% на AIME, при инициализации с 8К окном трена упала до 22% затем через тысячу шагов поднялась до 33.9% при этом сильно укоротив среднюю длину ответов (корректные в среднем 6396 -> 3661.2, некорректные 20346.3 -> 6976.8)
*затем 500 шагов с 16к контекстом удалось выбить 38% AIME но средняя длина ответа увеличилась с 3500 токенов до 5500;
*еще 250 шагов с 24к контекстом и тут удалось дойти до 43.1% AIME.

И еще ребята считают что надо и качественный SFT делать и RL потом :)

Так понял.

Кстати, сначала собираю подобные проекты и статьи в ресечим: https://www.tgoop.com/researchim а потом уже тут рассказываю.

Ссылки по проекту:

https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2

https://github.com/agentica-project

Код и Датасет в репе лежит:
https://github.com/agentica-project/deepscaler

Моделька:
https://huggingface.co/agentica-org/DeepScaleR-1.5B-Preview
50🔥7👾32
2025/07/10 12:19:10
Back to Top
HTML Embed Code: