Telegram Web
👍26😁14🤣4💯2
Forwarded from AI[ex]Time (Alex Golubev)
Давно как-то не доходили руки ничего написать в канал: то по работе дела, то статей интересных не было в моменте, то просто не хотелось. Тем не менее за месяц вышел ряд работ, которые мне показались интересными, с некоторых из них и начнем.

ByteDance (TikTok) представила две статьи по RL тюнингу моделей, а именно вариации GRPO: DAPO и VAPO. Интересны они тем, что авторы детально рассматривают детали реализации GRPO и смотрят на моменты, которые можно улучшить, например:

- Известно, что если делать большое кол-во шагов подитераций в PPO мы быстро начнем выходить за 1+eps (eps = 0.2 по дефолту), из-за чего градиент на данных семплах будет зануляться ⇒ обучение становится менее эффективным. Авторы поизучали этот вопрос и советуют клипать значения с двух сторон с разными epsilon. На эту тему есть еще одна интересная работа, где авторы смотрели на сценарий очень большого кол-во подтиреций внутри PPO-like лосса: TOPR.
- Рассматривается вопрос о том, в каком порядке лучше усреднять лосс внутри батча, тк это может повлиять на вклад траекторий разной длины. Это очень важный вопрос в агентских системах, когда есть траектории, содержащие в себе длинные шаги, ошибки, дебаг, а есть те, которые решают задачу буквально за несколько шагов.
- В VAPO главным моментом изучения стала модель-критик для оценки Advantage с помощью GAE. В GRPO и прочих методах одним из приятных преимуществ перед PPO было то, что не приходится учить отдельную модель, а Advantage мы оценивали как r_i - mean(r) по группе, где r_{1..n} - решения одной конкретной задачки. VAPO делает шаг назад и смотрит на то, как все-таки использовать критика для более эффективного обучения. Немного про это писал в посте про сам GRPO.

Все это замеряется на Qwen2.5-32B на задаче AIME 2024 и сравнивается с DeepSeek-R1-Zero-Qwen-32B.

В общем, это чисто технические статьи, которые будут интересны довольно узкому кругу. Совсем недавно ByteDance выпустил собственную 200B модель Seed-Thinking-v1.5, где в частности применили эти алгоритмы на последней стадии.
https://theaidigest.org/time-horizons

Кому экспоненту?

Этот тренд был обнаружен исследователями из METR. Они взяли самых способных агентов за период с 2019 по 2025 год и протестировали их на около 200 задачах — в основном задачах по программированию, а также на некоторых задачах общего рассуждения.

Затем они сравнили процент успешных решений агентов с длительностью каждой задачи — то есть с тем, сколько времени требуется профессионалам-людям на её выполнение. Время варьировалось от менее 30 секунд до более 8 часов.

По всем протестированным моделям проявились две чёткие закономерности:

- Длительность задачи сильно коррелирует с успешностью агента (R² = 0.83)
- Временной горизонт — продолжительность задач, с которыми агенты справляются в 50% случаев — растёт экспоненциально
1🥱14👍7🔥2👏1🌚1
Тут подумали что можно для ризонинговых моделек после основного промта добавлять
<|beginning of thinking|>
Okay, I think I have finished thinking.
<|end of thinking|>

Делается это уже от роли ассистента (т.е. как моделька бы генерила ризонинг мы уже от нее дописываем), и моделька продолжит генерить уже ответ.
Теги заменяем на специфичные для модельки как я понимаю.
И потестили на DeepSeek-R1-Distill-Qwen 32B с тегами <think></think>. Результы на картиночках.

Так можно пробовать экономить токены и результы на некоторых бенчах получаются сопоставимые или лучше.
Еще при тех же количествах токенов на pass@k даже иногда лучше работает. И может быть интересным при тест-тайм скейлинге например.

Reasoning Models Can Be Effective Without Thinking
https://www.arxiv.org/abs/2504.09858
https://www.alphaxiv.org/ru/overview/2504.09858
🤯14👍1🤔1
Ох уж эти вычислительно-оптимальные БЯМ 😏

Compute-Optimal LLMs Provably Generalize Better With Scale
https://arxiv.org/abs/2504.15208
https://www.alphaxiv.org/ru/overview/2504.15208
Please open Telegram to view this post
VIEW IN TELEGRAM
😢11😁4👍1
Что там у моделек с физикой

PHYBench
С набором из 500 тщательно отобранных задач по физике, охватывающих механику, электромагнетизм, термодинамику, оптику, современную и продвинутую физику, он проверяет способность моделей демонстрировать:

Связь с реальностью: задачи основаны на реальных физических сценариях (например, шар в чаше, динамика маятника).

Многошаговые рассуждения: средняя длина решения составляет 3000 символов и требует более 10 промежуточных шагов.

Символьную точность: строгая оценка выражений, записанных в формате LaTeX, с помощью новой метрики «Expression Edit Distance (EED)».

Какой же мощный Gemini 2.5 Pro у Гугла получился
(шарит за шар в чаше?)

https://phybench-official.github.io/phybench-demo/


PS в https://www.tgoop.com/researchim собираем АИ инфу и проектики делаем
🔥9👍4🤗2
Muon Optimizer Accelerates Grokking
Amund Tveit, Bjørn Remseth, Arve Skogvold
Статья: https://arxiv.org/abs/2504.16041

Любопытная история про гроккинг, здесь про влияние оптимизатора и конкретно про то, что переключение оптимизатора с AdamW на Muon существенно ускоряет наступление гроккинга.

Напомним, что гроккинг -- это весьма интересный феномен генерализации, когда модель сначала как бы переобучается (высокое качество на обучающем сете, но низкое на уровне рандома на валидационном), но если продолжать обучение дальше, то в какой-то момент перформанс на валидационном быстро датасете вырастает до высоких значений. Модель “врубается”.

Текущая работа определяет гроккинг следующим образом: это первая эпоха, на которой точность на валидации достигает или превосходит 95%, после того как точность на трейне стабилизировалась около 100%.

Если не читали разбор оригинальной статьи про гроккинг (https://www.tgoop.com/gonzo_ML/831), очень рекомендую.

Вот ведь, было время, когда OpenAI публиковал интересные статьи, и эту, и про double descent, и много всего другого…

Muon (MomentUm Orthogonalized by Newton-Schulz) -- это свежий оптимизатор (https://github.com/KellerJordan/Muon), предназначенный для обучения внутренних слоёв моделей, работает с 2D+ матрицами параметров. Разные векторы и скаляры надо обучать чем-то другим, например, AdamW. Эмпирически нашли также, что и эмбеддинги с классификационными головами лучше обучать не Muon’ом, у них другая динамика оптимизации (по крайней мере у первых).

Алгоритм берёт градиенты из SGD-Nesterov-momentum (можно и без Нестерова, но с ним лучше) и делает их постпроцессинг через итерацию Newton-Schulz, которая приближённо ортогонализует матрицу апдейтов. Больше подробностей есть в описании алгоритма тут: https://kellerjordan.github.io/posts/muon/.

Muon родился осенью прошлого года (https://x.com/kellerjordan0/status/1842300916864844014) и уже показал себя хорошо на скейлинге MoE LLM c 3B/16B параметров (вариант deepseek-v3-small) в обучении на 5.7T токенов, будучи примерно в два раза эффективнее AdamW (https://arxiv.org/abs/2502.16982).

В текущей работе проверили несколько датасетов. Датасет как в оригинальной работе про гроккинг и арифметику по модулю 97, а также датасет про чётность 10-битных бинарных строк. Задачи выбраны потому что на них феномен хорошо демонстрируется.

Поскольку одна из свежих работ про гроккинг (https://arxiv.org/abs/2501.04697) показывала влияние нестабильности софтмакса (Softmax Collapse) на проявление феномена, попробовали несколько альтернатив: стандартный Softmax, кусочнолинейный Stablemax с лучшей стабильностью, и приводящий к разреженным результатам Sparsemax.

Проверяли на классическом трансформере, с identity эмбеддингами (токен “42” маппится в вектор 42), RoPE, RMSNorm, SiLU активации, с дропаутом.

Сравнивали AdamW (β1 = 0.9, β2 = 0.98) и Muon. Делали множественные запуски с разными случайными сидами.

Как результат, у Muon статистически значимо преимущество, он существенно раньше приводит к гроккингу, примерно на 100-й эпохе вместо 150-й. Ещё и распределение grokking times более узкое.

Так что хотите быстрого гроккинга, юзайте мюон!

Авторы немного рассуждают на тему, что именно в мюоне помогает гроккингу. Ограничения спектральных норм и сигналы второго порядка уводят модель в сторону от тупого запоминания и помогают обнаружить настоящий паттерн.

В целом требуется более широкое исследование на более крупных моделях и разнообразных задачах.
👍124🔥4
science
🔥9👍3👏1
Ему кайфово
👏22🥴17🤣8🥰3👍1
А мем он такой придумал 😢
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡23😁5👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Вот-вот выпустят Qwen 3 😑
Please open Telegram to view this post
VIEW IN TELEGRAM
🤨7🤷6👍5🤔3🔥2
Unsloth отгружает 4бита кванты и GGUFы (для llama.cpp)
Оперативно конечно

https://huggingface.co/collections/unsloth/qwen3-680edabfb790c8c34a242f95
17👍6👏1
Forwarded from Vikhr models
Doom - Первый ризонинг бенчмарк для русского


Открылись для сообщества, статья на хабр и arxiv скоро, мелкие детали доезжают.

Обратите внимание что бенчмарк основан на публичных данных, вероятно все модели в бенчмарке в том или ином виде видели

hf leaderboard

github
🔥114👍2
F https://www.skype.com/ru/

Пользуйтесь теперь тимс (пожалуй не буду)
💯16😁4👏3
2025/07/13 22:48:26
Back to Top
HTML Embed Code: