Telegram Web
На архив приедут аудио саммари
https://blog.arxiv.org/2025/04/08/arxiv-pilots-audio-summaries-in-partnership-with-sciencecast/

Пока доступны для High Energy Astrophysics только
https://arxiv.org/list/astro-ph.HE/recent

Выбираем статьи новые и слушоем 😏
Сами записи будут на сайте https://sciencecast.org/casts/ лежать
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21🤡31👍1
Учимся с GRPO генерить длинные тексты

В работе тюнят Qwen-2.5 7B-Instruct-1M и 3B.

Представим что мы хотим научить ллмку книги писать.
Вместо генерации всей книги, будем учить модель генерировать одну следующую главу, используя Story Information с предыдущей главы:

High-level story sketch — краткий план всей книги;
Previous summary — краткое содержание предыдущих глав;
Character sheets — описание ключевых персонажей;
Previous chapter — сама последняя глава;
Next chapter synopsis — краткий план следующей главы (для оценки, не для генерации).

И так как у нас GRPO, у нас есть
текущая моделька политики, которая зовется в работе reasoning-модель (πᴿ)
и генератор (πᴳ) - это reference моделька.

Сначала reasoning-модель (πᴿ) генерирует reasoning trace — рассуждения, заканчивающиеся детальным планом главы (p̂). Затем генератор (πᴳ) пишет главу на основе этого плана.

Вводят percent improvement in per-token perplexity (PPL) которая измеряет улучшение вероятности генерации правильной главы (y) при добавлении reasoning trace (плана a):

I(x, y, a) = [1 - PPL(y | x, a) / PPL(y | x)] × 100

(perplexity считается по распределнию токенов в y)
a - это план следующей главы, x - story information, y - сгенеренная глава.
Ревард на основе percent improvement смотрим на 4 скрине.

Датасет
30 книг, опубликованных в 2024+ (чтобы избежать утечек в обучении моделей); 22 книги в обучении, 4 в валидации, 4 в тесте.
Весь объем: 1000+ обучающих примеров;

Используются сводки глав, образы персонажей, предыдущие главы.

Сравнивали четыре варианта:

Base — просто генерация главы по SI.
Base-Reasoning — сначала размышляет а потом по трейсу размышлений генерит главу.
SFT — генерация после supervised-файнтюнинга на следующей главе.
RL-Trained — reasoning обучен через VR-CLI.

Оценка по критериям: сюжет, персонажи, развитие, креативность, стиль, общая предпочтительность. Работу оценивали люди через парные сравнения.

В результате имеем:
RL-trained модель - лидер почти по всем метрикам.
Особенно хорошо reasoning работает в жанре Sci-fi и Fantasy.
(3-4 скрины)

Так понял
Статью читаем, там еще куча инфы

Learning to Reason for Long-Form Story Generation
https://arxiv.org/abs/2503.22828

https://github.com/Alex-Gurung/ReasoningNCP

PS собираемся и собираем инфу по AI в https://www.tgoop.com/researchim
❤‍🔥11🔥4👏1
https://ai-2027.com/

Кто-нибудь читал? Стоит вообще открывать?
👍19👎14👀3🤔2😁1
Там кстати разрабы ARC AGI походу работают над платформой для веб-приложунек/окружений/игр
Открыли вакуху на WebGL Unity разраба
https://arcprize.org/jobs

Я считал подобную идею чтобы делать енвы в браузере уже давно хорошей. Но я как-то отстал и щас уже не знаю насколько сложные штуки может браузер тащить.

Еще в 2019 делал либку для обучения RL (там PPO норм работал только, кстати) в браузере прям с three.js и tensorflow.js . И на node js работало. Щас думаю уже не поднимется
Мотивация была такая, что типа это ж круто что можно эксперименты гонять и тренить прямо по ссылке в окошке. Все конечно немного сложнее на тот момент было)
Собирался сделать конструктор 3D енвов. До этого уже не дошло как-то
https://github.com/tokarev-i-v/rllib.js
1👍103🔥3
Что мы знаем про дифузионные LLM?
Я только то, что им теперь завезли GRPO (diffu-GRPO)

дифузионные ллмщики думали что вас не заденет? Сюдааа

d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
https://dllm-reasoning.github.io/

https://github.com/dllm-reasoning/d1
🔥163🤔3👍2
За последнее время выходила куча работ по ризонингам
Среди них было много по тюну 1.5B моделек.
И вот тут ребята решили заново проевалить полученные 1.5B ризонеры и сравнить с зарепорчеными авторами метриками. Ну и получилось меньше

Я вот писал про работу DeepScaler где якобы смогли получить на 1.5B модельке результаты O1-preview на AIME 2024.
В репорте там писали что на AIME 43.1% выбили https://www.tgoop.com/AGI_and_RL/958, а тут ребята намерили 37.0
Хотя из всех остальных работ именно дипскелер показывает самые большие результаты.

По остальным работам тоже можно глянуть, кому интересно.

Во-первых есть лидерборд
https://bethgelab.github.io/sober-reasoning/

Во вторых работа. Разбирают как результаты от семплинг параметров зависят, и что сильно зависят от рандом сида например. Поэтому евалить надо на разных сидах, ну и желательно не на таких маленьких датасетах как AIME 2024.

A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility
https://arxiv.org/abs/2504.07086

Код https://github.com/bethgelab/sober-reasoning

А как же тогда стартапы будут внимание привлекать, если мерить нормально будут? Авторы бы хоть подумали

PS собираемся и собираем AI статейки тута: https://www.tgoop.com/researchim
1🔥8👍63😢3
Давайте составим план (предсказание) по AI до 2030 в комментариях к этому посту (жду ваших вариантов)
🤣13🥰2🐳2🤡1👻1
Какая локальная моделька лучшая для кодинга? Это прям вопрос, я сам ищу.
Я думал что может Gemma 3 27B или QwQ.

Если смотреть на ливбенч с чисто фильтром по коду, то
https://livebench.ai/#/?Coding=a

получается, что дистил R1 Qwen 32B
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

Он обходит и клода 3.7 (?)
И сильно QwQ.
Да и сам R1.
Волшебная в общем моделька получилась

Если кто-то локально разворачивает более-менее модельки большие и считает какую-то крутой, то пишите в коментах
🤨17👀9👍3🤷‍♀2🔥2😁1
Там кстати говорят что Safe Superintelligence Inc. Ильи Суцкевера оценивается в $32B

https://techcrunch.com/2025/04/12/openai-co-founder-ilya-sutskevers-safe-superintelligence-reportedly-valued-at-32b/

Вот их сайт https://ssi.inc/

В целом заслужили.

Вот список их разработок только за последний год:
😁57👏7🤣51
Может кому-то интересны локальные ллмки с длинными контекстами.
Нвидия потюнили лламы 3.1 8B аж до 4м контекста как они пишут.

С одной стороны это круто. С другой стороны я чот ни одной хорошей ллмки от нвидии не видел. Все что не щупал, ну оно прям чот не оч. Но времена-то меняются, да?
Самому мне негде такой контекст инферить и тестить.

Если потестите - отпишитесь в комменты пж)

Насчет русского языка - хз

Ну и если кому интересно - можно статью почитать

From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models
https://arxiv.org/abs/2504.06214

https://ultralong.github.io/

Модельки https://huggingface.co/collections/nvidia/ultralong-67c773cfe53a9a518841fbbe


PS собираемся и собираем все крутое по АИшке (и проектики делаем, да) тут https://www.tgoop.com/researchim
👍11🔥73
В майкрософте озаботились окружением в котором модельке было бы удобнее править проекты с кодом с использованием pdb (питон дебагер)

Т.е. чтобы не просто моделька могла запускать код и смотреть на трейсы ошибок но и вызывать pdb, ставить по коду брейкпоинты и детальнее видеть как там исполнение происходит

Для ресечей пойдет (в кодовых агентах и по безопасности например)

https://microsoft.github.io/debug-gym/

https://github.com/microsoft/debug-gym
🔥108👍5
Ребят, если кто смотреть будет (или смотрит)

https://www.youtube.com/watch?v=kA-P9ood-cE

напишите в коментах если чего интересного увидите
💯9👍2😎1
Я буду кидать очередной имплемент GRPO когда вы меньше всего этого ждете.
Я и сам не ждал

https://github.com/policy-gradient/GRPO-Zero
😁3👍1
шьто-то пусто в коментах. Пригоршня гпт 4.1 вас не удивила?

Жду локальную модельку от ОпенАИ. Может они прям всех разорвут в опенсурсе? Хотелось бы.
😁8🤔2🤣2
Не кажется ли вам, что инновации ОпенАИ как бы подсократились в последнее время?
Ресерч их как будто сжался
💯19😁16🤨7🕊2😢1
Ребята из OpenPipe выкладывают Agent Reinforcement Trainer (ART)

https://github.com/OpenPipe/ART
Пишут что есть multi-turn. При этом базируются на анслот + trl.

По сути делают то же, что и мы в https://github.com/researchim-ai/re-tiny-grpo
Недавно заехал пример по трену модельки юзать калькулятор на первом шаге, а на втором просто отдавать то что посчитал калькулятор в <answer> тегах.
Multi-turn позволяет на последующих шагах трена переиспользовать например ответы из вызванных инструментов на предыдущих шагах.
Работаю над новыми примерами сейчас. Название чуть позже обновится думаю) Это тоже штука планируется для агентских задач.

Все по ИИшечке собираем и проектики делаем в https://www.tgoop.com/researchim
10🤔4👍3
2025/07/13 09:27:12
Back to Top
HTML Embed Code: