Что мы знаем про дифузионные LLM?
Я только то, что им теперь завезли GRPO (diffu-GRPO)
дифузионные ллмщики думали что вас не заденет? Сюдааа
d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
https://dllm-reasoning.github.io/
https://github.com/dllm-reasoning/d1
Я только то, что им теперь завезли GRPO (diffu-GRPO)
дифузионные ллмщики думали что вас не заденет? Сюдааа
d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
https://dllm-reasoning.github.io/
https://github.com/dllm-reasoning/d1
🔥16❤3🤔3👍2
За последнее время выходила куча работ по ризонингам
Среди них было много по тюну 1.5B моделек.
И вот тут ребята решили заново проевалить полученные 1.5B ризонеры и сравнить с зарепорчеными авторами метриками. Ну и получилось меньше
Я вот писал про работу DeepScaler где якобы смогли получить на 1.5B модельке результаты O1-preview на AIME 2024.
В репорте там писали что на AIME 43.1% выбили https://www.tgoop.com/AGI_and_RL/958, а тут ребята намерили 37.0
Хотя из всех остальных работ именно дипскелер показывает самые большие результаты.
По остальным работам тоже можно глянуть, кому интересно.
Во-первых есть лидерборд
https://bethgelab.github.io/sober-reasoning/
Во вторых работа. Разбирают как результаты от семплинг параметров зависят, и что сильно зависят от рандом сида например. Поэтому евалить надо на разных сидах, ну и желательно не на таких маленьких датасетах как AIME 2024.
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility
https://arxiv.org/abs/2504.07086
Код https://github.com/bethgelab/sober-reasoning
А как же тогда стартапы будут внимание привлекать, если мерить нормально будут? Авторы бы хоть подумали
PS собираемся и собираем AI статейки тута: https://www.tgoop.com/researchim
Среди них было много по тюну 1.5B моделек.
И вот тут ребята решили заново проевалить полученные 1.5B ризонеры и сравнить с зарепорчеными авторами метриками. Ну и получилось меньше
Я вот писал про работу DeepScaler где якобы смогли получить на 1.5B модельке результаты O1-preview на AIME 2024.
В репорте там писали что на AIME 43.1% выбили https://www.tgoop.com/AGI_and_RL/958, а тут ребята намерили 37.0
Хотя из всех остальных работ именно дипскелер показывает самые большие результаты.
По остальным работам тоже можно глянуть, кому интересно.
Во-первых есть лидерборд
https://bethgelab.github.io/sober-reasoning/
Во вторых работа. Разбирают как результаты от семплинг параметров зависят, и что сильно зависят от рандом сида например. Поэтому евалить надо на разных сидах, ну и желательно не на таких маленьких датасетах как AIME 2024.
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility
https://arxiv.org/abs/2504.07086
Код https://github.com/bethgelab/sober-reasoning
А как же тогда стартапы будут внимание привлекать, если мерить нормально будут? Авторы бы хоть подумали
PS собираемся и собираем AI статейки тута: https://www.tgoop.com/researchim
1🔥8👍6❤3😢3
Давайте составим план (предсказание) по AI до 2030 в комментариях к этому посту (жду ваших вариантов)
🤣13🥰2🐳2🤡1👻1
Какая локальная моделька лучшая для кодинга? Это прям вопрос, я сам ищу.
Я думал что может Gemma 3 27B или QwQ.
Если смотреть на ливбенч с чисто фильтром по коду, то
https://livebench.ai/#/?Coding=a
получается, что дистил R1 Qwen 32B
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
Он обходит и клода 3.7 (?)
И сильно QwQ.
Да и сам R1.
Волшебная в общем моделька получилась
Если кто-то локально разворачивает более-менее модельки большие и считает какую-то крутой, то пишите в коментах
Я думал что может Gemma 3 27B или QwQ.
Если смотреть на ливбенч с чисто фильтром по коду, то
https://livebench.ai/#/?Coding=a
получается, что дистил R1 Qwen 32B
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
Он обходит и клода 3.7 (?)
И сильно QwQ.
Да и сам R1.
Волшебная в общем моделька получилась
Если кто-то локально разворачивает более-менее модельки большие и считает какую-то крутой, то пишите в коментах
🤨17👀9👍3🤷♀2🔥2😁1
Там кстати говорят что Safe Superintelligence Inc. Ильи Суцкевера оценивается в $32B
https://techcrunch.com/2025/04/12/openai-co-founder-ilya-sutskevers-safe-superintelligence-reportedly-valued-at-32b/
Вот их сайт https://ssi.inc/
В целом заслужили.
Вот список их разработок только за последний год:
https://techcrunch.com/2025/04/12/openai-co-founder-ilya-sutskevers-safe-superintelligence-reportedly-valued-at-32b/
Вот их сайт https://ssi.inc/
В целом заслужили.
Вот список их разработок только за последний год:
😁57👏7🤣5❤1
Может кому-то интересны локальные ллмки с длинными контекстами.
Нвидия потюнили лламы 3.1 8B аж до 4м контекста как они пишут.
С одной стороны это круто. С другой стороны я чот ни одной хорошей ллмки от нвидии не видел. Все что не щупал, ну оно прям чот не оч. Но времена-то меняются, да?
Самому мне негде такой контекст инферить и тестить.
Если потестите - отпишитесь в комменты пж)
Насчет русского языка - хз
Ну и если кому интересно - можно статью почитать
From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models
https://arxiv.org/abs/2504.06214
https://ultralong.github.io/
Модельки https://huggingface.co/collections/nvidia/ultralong-67c773cfe53a9a518841fbbe
PS собираемся и собираем все крутое по АИшке (и проектики делаем, да) тут https://www.tgoop.com/researchim
Нвидия потюнили лламы 3.1 8B аж до 4м контекста как они пишут.
С одной стороны это круто. С другой стороны я чот ни одной хорошей ллмки от нвидии не видел. Все что не щупал, ну оно прям чот не оч. Но времена-то меняются, да?
Самому мне негде такой контекст инферить и тестить.
Если потестите - отпишитесь в комменты пж)
Насчет русского языка - хз
Ну и если кому интересно - можно статью почитать
From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models
https://arxiv.org/abs/2504.06214
https://ultralong.github.io/
Модельки https://huggingface.co/collections/nvidia/ultralong-67c773cfe53a9a518841fbbe
PS собираемся и собираем все крутое по АИшке (и проектики делаем, да) тут https://www.tgoop.com/researchim
arXiv.org
From 128K to 4M: Efficient Training of Ultra-Long Context Large...
Long-context capabilities are essential for a wide range of applications, including document and video understanding, in-context learning, and inference-time scaling, all of which require models...
👍11🔥7❤3
В майкрософте озаботились окружением в котором модельке было бы удобнее править проекты с кодом с использованием pdb (питон дебагер)
Т.е. чтобы не просто моделька могла запускать код и смотреть на трейсы ошибок но и вызывать pdb, ставить по коду брейкпоинты и детальнее видеть как там исполнение происходит
Для ресечей пойдет (в кодовых агентах и по безопасности например)
https://microsoft.github.io/debug-gym/
https://github.com/microsoft/debug-gym
Т.е. чтобы не просто моделька могла запускать код и смотреть на трейсы ошибок но и вызывать pdb, ставить по коду брейкпоинты и детальнее видеть как там исполнение происходит
Для ресечей пойдет (в кодовых агентах и по безопасности например)
https://microsoft.github.io/debug-gym/
https://github.com/microsoft/debug-gym
🔥10❤8👍5
Ребят, если кто смотреть будет (или смотрит)
https://www.youtube.com/watch?v=kA-P9ood-cE
напишите в коментах если чего интересного увидите
https://www.youtube.com/watch?v=kA-P9ood-cE
напишите в коментах если чего интересного увидите
YouTube
GPT 4.1 in the API
Join Michelle Pokrass, Ishaan Singal, and Kevin Weil as they introduce and demo our new family of GPT-4.1 models in the API
💯9👍2😎1
Я буду кидать очередной имплемент GRPO когда вы меньше всего этого ждете.
Я и сам не ждал
https://github.com/policy-gradient/GRPO-Zero
Я и сам не ждал
https://github.com/policy-gradient/GRPO-Zero
GitHub
GitHub - policy-gradient/GRPO-Zero: Implementing DeepSeek R1's GRPO algorithm from scratch
Implementing DeepSeek R1's GRPO algorithm from scratch - policy-gradient/GRPO-Zero
😁3👍1
Ребята из OpenPipe выкладывают Agent Reinforcement Trainer (ART)
https://github.com/OpenPipe/ART
Пишут что есть multi-turn. При этом базируются на анслот + trl.
По сути делают то же, что и мы в https://github.com/researchim-ai/re-tiny-grpo
Недавно заехал пример по трену модельки юзать калькулятор на первом шаге, а на втором просто отдавать то что посчитал калькулятор в <answer> тегах.
Multi-turn позволяет на последующих шагах трена переиспользовать например ответы из вызванных инструментов на предыдущих шагах.
Работаю над новыми примерами сейчас. Название чуть позже обновится думаю) Это тоже штука планируется для агентских задач.
Все по ИИшечке собираем и проектики делаем в https://www.tgoop.com/researchim
https://github.com/OpenPipe/ART
Пишут что есть multi-turn. При этом базируются на анслот + trl.
По сути делают то же, что и мы в https://github.com/researchim-ai/re-tiny-grpo
Недавно заехал пример по трену модельки юзать калькулятор на первом шаге, а на втором просто отдавать то что посчитал калькулятор в <answer> тегах.
Multi-turn позволяет на последующих шагах трена переиспользовать например ответы из вызванных инструментов на предыдущих шагах.
Работаю над новыми примерами сейчас. Название чуть позже обновится думаю) Это тоже штука планируется для агентских задач.
Все по ИИшечке собираем и проектики делаем в https://www.tgoop.com/researchim
GitHub
GitHub - OpenPipe/ART: Agent Reinforcement Trainer for training multi-turn agents using GRPO
Agent Reinforcement Trainer for training multi-turn agents using GRPO - OpenPipe/ART
✍10🤔4👍3
Один раз исследователи не написали обзорку по агентам, больше их никто не видел
Эти написали. И в основном они из salesforce (они иногда очень прикольные вещи делают🥰 )
обозреваем
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems
https://arxiv.org/abs/2504.09037
Эти написали. И в основном они из salesforce (они иногда очень прикольные вещи делают
обозреваем
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems
https://arxiv.org/abs/2504.09037
Please open Telegram to view this post
VIEW IN TELEGRAM
✍6❤4🤔2
Forwarded from AI для Всех (Artemii)
Genius: Когда языковая модель начинает учиться сама
Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика. Просто — 25 000 обычных вопросов. А она сама начинает думать лучше.
Это не фантастика. Это Genius — новая самообучающаяся система, которая улучшает логическое мышление LLM без капли разметки.
Почему это вообще возможно?
Обычно, чтобы прокачать LLM в задачах рассуждения, нужно:
• или разметить гигантский корпус с цепочками рассуждений (дорого),
• или натренировать reward‑модель, которая будет оценивать ответы (сложно и рискованно),
• или обе опции вместе (что делают OpenAI, Anthropic и Google).
Genius идёт другим путём. Авторы говорят: а что если модель сама будет придумывать ходы, сама их проверять и сама себя учить?
Как это работает?
Ключевой приём — Stepwise Foresight Re-sampling:
1. Модель отвечает не сразу — а по шагам.
2. На каждом шаге она пробует несколько вариантов следующего действия.
3. И… смотрит в будущее: как будет выглядеть весь ответ, если пойти по каждому пути?
4. Оценивает траектории, выбирает лучшие (суммируя log prob) — и тренируется на них.
Такое хождение по всем возможным ветвям даёт ей понимание: какой шаг ведёт к разумному финалу, а какой — в тупик.
Но есть проблема: оценки могут быть шумными. Иногда «плохой» шаг случайно выглядит хорошим. Чтобы не начать учиться на ошибках, в игру вступает второй приём — Advantage-Calibrated Optimization:
• Он сравнивает не только “награду” текущего шага, но и то, насколько он лучше предыдущего.
• Если “плохой” шаг оказался неожиданно полезным — штраф за него снижается.
• Это делает обучение более устойчивым, без переобучения на случайные успехи.
А теперь самое интересное — результаты.
• Всего 25 000 обычных вопросов (без ответов!) дали +7 pp к точности рассуждений на бенчмарках вроде GSM8K, ReClor и AIME 2024.
• Работает на LLaMA3.1, Qwen2.5, и вообще без привязки к архитектуре.
• Не ломает базовые знания: на MMLU и WikiBench — стабильность.
• Лучше всех baseline-методов, включая supervised fine-tuning и Self-Rewarding.
Статья
Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика. Просто — 25 000 обычных вопросов. А она сама начинает думать лучше.
Это не фантастика. Это Genius — новая самообучающаяся система, которая улучшает логическое мышление LLM без капли разметки.
Почему это вообще возможно?
Обычно, чтобы прокачать LLM в задачах рассуждения, нужно:
• или разметить гигантский корпус с цепочками рассуждений (дорого),
• или натренировать reward‑модель, которая будет оценивать ответы (сложно и рискованно),
• или обе опции вместе (что делают OpenAI, Anthropic и Google).
Genius идёт другим путём. Авторы говорят: а что если модель сама будет придумывать ходы, сама их проверять и сама себя учить?
Как это работает?
Ключевой приём — Stepwise Foresight Re-sampling:
1. Модель отвечает не сразу — а по шагам.
2. На каждом шаге она пробует несколько вариантов следующего действия.
3. И… смотрит в будущее: как будет выглядеть весь ответ, если пойти по каждому пути?
4. Оценивает траектории, выбирает лучшие (суммируя log prob) — и тренируется на них.
Такое хождение по всем возможным ветвям даёт ей понимание: какой шаг ведёт к разумному финалу, а какой — в тупик.
Но есть проблема: оценки могут быть шумными. Иногда «плохой» шаг случайно выглядит хорошим. Чтобы не начать учиться на ошибках, в игру вступает второй приём — Advantage-Calibrated Optimization:
• Он сравнивает не только “награду” текущего шага, но и то, насколько он лучше предыдущего.
• Если “плохой” шаг оказался неожиданно полезным — штраф за него снижается.
• Это делает обучение более устойчивым, без переобучения на случайные успехи.
А теперь самое интересное — результаты.
• Всего 25 000 обычных вопросов (без ответов!) дали +7 pp к точности рассуждений на бенчмарках вроде GSM8K, ReClor и AIME 2024.
• Работает на LLaMA3.1, Qwen2.5, и вообще без привязки к архитектуре.
• Не ломает базовые знания: на MMLU и WikiBench — стабильность.
• Лучше всех baseline-методов, включая supervised fine-tuning и Self-Rewarding.
Статья
❤18🔥11👍5
AI для Всех
Genius: Когда языковая модель начинает учиться сама Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика. Просто — 25 000 обычных вопросов. А она сама начинает думать лучше. Это не фантастика. Это Genius — новая самообучающаяся…
Дополню ещё ссылкой на код, там ссылка на hf с модельками тоже есть
https://github.com/xufangzhi/Genius
https://github.com/xufangzhi/Genius
🔥13👍3🤝2
Агенты ИИ | AGI_and_RL
Не кажется ли вам, что инновации ОпенАИ как бы подсократились в последнее время? Ресерч их как будто сжался
Из вчерашнего релиза ОпенАИ имеем революционные и рекордные o3 и o4-mini
ну и они выпустили кодового агента
https://github.com/openai/codex
Но я пока все же на курсоре останусь
ну и они выпустили кодового агента
https://github.com/openai/codex
Но я пока все же на курсоре останусь
GitHub
GitHub - openai/codex: Lightweight coding agent that runs in your terminal
Lightweight coding agent that runs in your terminal - openai/codex
1👌6👍2
Из реально прикольного пишут что автономный дрон из Micro Air Vehicle Lab Делфта обошел 13 других дронов, а еще обошел людей в гонках на A2RL Drone Championship в Абу Даби
Пару лет назад дрон уже обгонял людей, но там была предустановленная исследователями трасса. А в этой новости пишут, что трасса бала организаторами сделана (т.е. они или не затачивались под нее специально, или затачивались но не так сильно - тут я чот не очень понял).
RLем тренили
🥳 Оч круто
https://www.youtube.com/watch?v=yz2in2eFATE
https://www.tudelft.nl/2025/lr/wereldprimeur-tu-delft-ai-drone-wint-van-menselijke-bestuurders-op-wk-drone-racen
На ютубе на эту работу ссылаются
End-to-end Reinforcement Learning for Time-Optimal Quadcopter Flight
https://ieeexplore.ieee.org/document/10611665
https://arxiv.org/abs/2311.16948
PS Собираем кстати AI штуки и проекты делаем в https://www.tgoop.com/researchim
Пару лет назад дрон уже обгонял людей, но там была предустановленная исследователями трасса. А в этой новости пишут, что трасса бала организаторами сделана (т.е. они или не затачивались под нее специально, или затачивались но не так сильно - тут я чот не очень понял).
RLем тренили
https://www.youtube.com/watch?v=yz2in2eFATE
https://www.tudelft.nl/2025/lr/wereldprimeur-tu-delft-ai-drone-wint-van-menselijke-bestuurders-op-wk-drone-racen
На ютубе на эту работу ссылаются
End-to-end Reinforcement Learning for Time-Optimal Quadcopter Flight
https://ieeexplore.ieee.org/document/10611665
https://arxiv.org/abs/2311.16948
PS Собираем кстати AI штуки и проекты делаем в https://www.tgoop.com/researchim
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Autonomous Drone from TU Delft Defeats Human Champions in Historic Racing First
- https://www.linkedin.com/posts/tudelft_university-technology-innovation-ugcPost-7317863383142191105-hRgA?utm_source=share&utm_medium=member_desktop&rcm=ACoAAADJp08B9kdY-Ab21RQeBQVD_GoXFdPhx2c
- https://www.linkedin.com/posts/tu-delft-aerospace-engineering_aetudelft…
- https://www.linkedin.com/posts/tu-delft-aerospace-engineering_aetudelft…
🔥13😱5👍4