Telegram Web
Что мы знаем про дифузионные LLM?
Я только то, что им теперь завезли GRPO (diffu-GRPO)

дифузионные ллмщики думали что вас не заденет? Сюдааа

d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
https://dllm-reasoning.github.io/

https://github.com/dllm-reasoning/d1
🔥163🤔3👍2
За последнее время выходила куча работ по ризонингам
Среди них было много по тюну 1.5B моделек.
И вот тут ребята решили заново проевалить полученные 1.5B ризонеры и сравнить с зарепорчеными авторами метриками. Ну и получилось меньше

Я вот писал про работу DeepScaler где якобы смогли получить на 1.5B модельке результаты O1-preview на AIME 2024.
В репорте там писали что на AIME 43.1% выбили https://www.tgoop.com/AGI_and_RL/958, а тут ребята намерили 37.0
Хотя из всех остальных работ именно дипскелер показывает самые большие результаты.

По остальным работам тоже можно глянуть, кому интересно.

Во-первых есть лидерборд
https://bethgelab.github.io/sober-reasoning/

Во вторых работа. Разбирают как результаты от семплинг параметров зависят, и что сильно зависят от рандом сида например. Поэтому евалить надо на разных сидах, ну и желательно не на таких маленьких датасетах как AIME 2024.

A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility
https://arxiv.org/abs/2504.07086

Код https://github.com/bethgelab/sober-reasoning

А как же тогда стартапы будут внимание привлекать, если мерить нормально будут? Авторы бы хоть подумали

PS собираемся и собираем AI статейки тута: https://www.tgoop.com/researchim
1🔥8👍63😢3
Давайте составим план (предсказание) по AI до 2030 в комментариях к этому посту (жду ваших вариантов)
🤣13🥰2🐳2🤡1👻1
Какая локальная моделька лучшая для кодинга? Это прям вопрос, я сам ищу.
Я думал что может Gemma 3 27B или QwQ.

Если смотреть на ливбенч с чисто фильтром по коду, то
https://livebench.ai/#/?Coding=a

получается, что дистил R1 Qwen 32B
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

Он обходит и клода 3.7 (?)
И сильно QwQ.
Да и сам R1.
Волшебная в общем моделька получилась

Если кто-то локально разворачивает более-менее модельки большие и считает какую-то крутой, то пишите в коментах
🤨17👀9👍3🤷‍♀2🔥2😁1
Там кстати говорят что Safe Superintelligence Inc. Ильи Суцкевера оценивается в $32B

https://techcrunch.com/2025/04/12/openai-co-founder-ilya-sutskevers-safe-superintelligence-reportedly-valued-at-32b/

Вот их сайт https://ssi.inc/

В целом заслужили.

Вот список их разработок только за последний год:
😁57👏7🤣51
Может кому-то интересны локальные ллмки с длинными контекстами.
Нвидия потюнили лламы 3.1 8B аж до 4м контекста как они пишут.

С одной стороны это круто. С другой стороны я чот ни одной хорошей ллмки от нвидии не видел. Все что не щупал, ну оно прям чот не оч. Но времена-то меняются, да?
Самому мне негде такой контекст инферить и тестить.

Если потестите - отпишитесь в комменты пж)

Насчет русского языка - хз

Ну и если кому интересно - можно статью почитать

From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models
https://arxiv.org/abs/2504.06214

https://ultralong.github.io/

Модельки https://huggingface.co/collections/nvidia/ultralong-67c773cfe53a9a518841fbbe


PS собираемся и собираем все крутое по АИшке (и проектики делаем, да) тут https://www.tgoop.com/researchim
👍11🔥73
В майкрософте озаботились окружением в котором модельке было бы удобнее править проекты с кодом с использованием pdb (питон дебагер)

Т.е. чтобы не просто моделька могла запускать код и смотреть на трейсы ошибок но и вызывать pdb, ставить по коду брейкпоинты и детальнее видеть как там исполнение происходит

Для ресечей пойдет (в кодовых агентах и по безопасности например)

https://microsoft.github.io/debug-gym/

https://github.com/microsoft/debug-gym
🔥108👍5
Ребят, если кто смотреть будет (или смотрит)

https://www.youtube.com/watch?v=kA-P9ood-cE

напишите в коментах если чего интересного увидите
💯9👍2😎1
Я буду кидать очередной имплемент GRPO когда вы меньше всего этого ждете.
Я и сам не ждал

https://github.com/policy-gradient/GRPO-Zero
😁3👍1
шьто-то пусто в коментах. Пригоршня гпт 4.1 вас не удивила?

Жду локальную модельку от ОпенАИ. Может они прям всех разорвут в опенсурсе? Хотелось бы.
😁8🤔2🤣2
Не кажется ли вам, что инновации ОпенАИ как бы подсократились в последнее время?
Ресерч их как будто сжался
💯19😁16🤨7🕊2😢1
Ребята из OpenPipe выкладывают Agent Reinforcement Trainer (ART)

https://github.com/OpenPipe/ART
Пишут что есть multi-turn. При этом базируются на анслот + trl.

По сути делают то же, что и мы в https://github.com/researchim-ai/re-tiny-grpo
Недавно заехал пример по трену модельки юзать калькулятор на первом шаге, а на втором просто отдавать то что посчитал калькулятор в <answer> тегах.
Multi-turn позволяет на последующих шагах трена переиспользовать например ответы из вызванных инструментов на предыдущих шагах.
Работаю над новыми примерами сейчас. Название чуть позже обновится думаю) Это тоже штука планируется для агентских задач.

Все по ИИшечке собираем и проектики делаем в https://www.tgoop.com/researchim
10🤔4👍3
Один раз исследователи не написали обзорку по агентам, больше их никто не видел

Эти написали. И в основном они из salesforce (они иногда очень прикольные вещи делают 🥰)
обозреваем

A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems
https://arxiv.org/abs/2504.09037
Please open Telegram to view this post
VIEW IN TELEGRAM
64🤔2
Forwarded from Альберт Ф
так смешнее
😁37👍6🤣3😢1
Forwarded from AI для Всех (Artemii)
Genius: Когда языковая модель начинает учиться сама

Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика. Просто — 25 000 обычных вопросов. А она сама начинает думать лучше.

Это не фантастика. Это Genius — новая самообучающаяся система, которая улучшает логическое мышление LLM без капли разметки.

Почему это вообще возможно?

Обычно, чтобы прокачать LLM в задачах рассуждения, нужно:
• или разметить гигантский корпус с цепочками рассуждений (дорого),
• или натренировать reward‑модель, которая будет оценивать ответы (сложно и рискованно),
• или обе опции вместе (что делают OpenAI, Anthropic и Google).

Genius идёт другим путём. Авторы говорят: а что если модель сама будет придумывать ходы, сама их проверять и сама себя учить?

Как это работает?

Ключевой приём — Stepwise Foresight Re-sampling:
1. Модель отвечает не сразу — а по шагам.
2. На каждом шаге она пробует несколько вариантов следующего действия.
3. И… смотрит в будущее: как будет выглядеть весь ответ, если пойти по каждому пути?
4. Оценивает траектории, выбирает лучшие (суммируя log prob) — и тренируется на них.

Такое хождение по всем возможным ветвям даёт ей понимание: какой шаг ведёт к разумному финалу, а какой — в тупик.

Но есть проблема: оценки могут быть шумными. Иногда «плохой» шаг случайно выглядит хорошим. Чтобы не начать учиться на ошибках, в игру вступает второй приём — Advantage-Calibrated Optimization:
• Он сравнивает не только “награду” текущего шага, но и то, насколько он лучше предыдущего.
• Если “плохой” шаг оказался неожиданно полезным — штраф за него снижается.
• Это делает обучение более устойчивым, без переобучения на случайные успехи.

А теперь самое интересное — результаты.
• Всего 25 000 обычных вопросов (без ответов!) дали +7 pp к точности рассуждений на бенчмарках вроде GSM8K, ReClor и AIME 2024.
• Работает на LLaMA3.1, Qwen2.5, и вообще без привязки к архитектуре.
• Не ломает базовые знания: на MMLU и WikiBench — стабильность.
• Лучше всех baseline-методов, включая supervised fine-tuning и Self-Rewarding.

Статья
18🔥11👍5
Из реально прикольного пишут что автономный дрон из Micro Air Vehicle Lab Делфта обошел 13 других дронов, а еще обошел людей в гонках на A2RL Drone Championship в Абу Даби

Пару лет назад дрон уже обгонял людей, но там была предустановленная исследователями трасса. А в этой новости пишут, что трасса бала организаторами сделана (т.е. они или не затачивались под нее специально, или затачивались но не так сильно - тут я чот не очень понял).
RLем тренили
🥳 Оч круто

https://www.youtube.com/watch?v=yz2in2eFATE

https://www.tudelft.nl/2025/lr/wereldprimeur-tu-delft-ai-drone-wint-van-menselijke-bestuurders-op-wk-drone-racen

На ютубе на эту работу ссылаются

End-to-end Reinforcement Learning for Time-Optimal Quadcopter Flight
https://ieeexplore.ieee.org/document/10611665
https://arxiv.org/abs/2311.16948

PS Собираем кстати AI штуки и проекты делаем в https://www.tgoop.com/researchim
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13😱5👍4
2025/07/13 11:11:57
Back to Top
HTML Embed Code: