Агенты ИИ | AGI_and_RL 1026

Агенты ИИ | AGI_and_RL

Что мы знаем про дифузионные LLM?
Я только то, что им теперь завезли GRPO (diffu-GRPO)

дифузионные ллмщики думали что вас не заденет? Сюдааа

d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
https://dllm-reasoning.github.io/

https://github.com/dllm-reasoning/d1

🔥16❤3🤔3👍2

1.78K views19:41

Агенты ИИ | AGI_and_RL

За последнее время выходила куча работ по ризонингам
Среди них было много по тюну 1.5B моделек.
И вот тут ребята решили заново проевалить полученные 1.5B ризонеры и сравнить с зарепорчеными авторами метриками. Ну и получилось меньше

Я вот писал про работу DeepScaler где якобы смогли получить на 1.5B модельке результаты O1-preview на AIME 2024.
В репорте там писали что на AIME 43.1% выбили https://www.tgoop.com/AGI_and_RL/958, а тут ребята намерили 37.0
Хотя из всех остальных работ именно дипскелер показывает самые большие результаты.

По остальным работам тоже можно глянуть, кому интересно.

Во-первых есть лидерборд
https://bethgelab.github.io/sober-reasoning/

Во вторых работа. Разбирают как результаты от семплинг параметров зависят, и что сильно зависят от рандом сида например. Поэтому евалить надо на разных сидах, ну и желательно не на таких маленьких датасетах как AIME 2024.

A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility
https://arxiv.org/abs/2504.07086

Код https://github.com/bethgelab/sober-reasoning

А как же тогда стартапы будут внимание привлекать, если мерить нормально будут? Авторы бы хоть подумали

PS собираемся и собираем AI статейки тута: https://www.tgoop.com/researchim

1🔥8👍6❤3😢3

1.67K viewsedited 08:14

Агенты ИИ | AGI_and_RL

Давайте составим план (предсказание) по AI до 2030 в комментариях к этому посту (жду ваших вариантов)

🤣13🥰2🐳2🤡1👻1

1.44K viewsedited 09:37

Агенты ИИ | AGI_and_RL

Какая локальная моделька лучшая для кодинга? Это прям вопрос, я сам ищу.
Я думал что может Gemma 3 27B или QwQ.

Если смотреть на ливбенч с чисто фильтром по коду, то
https://livebench.ai/#/?Coding=a

получается, что дистил R1 Qwen 32B
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

Он обходит и клода 3.7 (?)
И сильно QwQ.
Да и сам R1.
Волшебная в общем моделька получилась

Если кто-то локально разворачивает более-менее модельки большие и считает какую-то крутой, то пишите в коментах

🤨17👀9👍3🤷‍♀2🔥2😁1

2.17K viewsedited 12:03

Агенты ИИ | AGI_and_RL

Там кстати говорят что Safe Superintelligence Inc. Ильи Суцкевера оценивается в $32B

https://techcrunch.com/2025/04/12/openai-co-founder-ilya-sutskevers-safe-superintelligence-reportedly-valued-at-32b/

Вот их сайт https://ssi.inc/

В целом заслужили.

Вот список их разработок только за последний год:

😁57👏7🤣5❤1

1.78K views18:38

Агенты ИИ | AGI_and_RL

Может кому-то интересны локальные ллмки с длинными контекстами.
Нвидия потюнили лламы 3.1 8B аж до 4м контекста как они пишут.

С одной стороны это круто. С другой стороны я чот ни одной хорошей ллмки от нвидии не видел. Все что не щупал, ну оно прям чот не оч. Но времена-то меняются, да?
Самому мне негде такой контекст инферить и тестить.

Если потестите - отпишитесь в комменты пж)

Насчет русского языка - хз

Ну и если кому интересно - можно статью почитать

From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models
https://arxiv.org/abs/2504.06214

https://ultralong.github.io/

Модельки https://huggingface.co/collections/nvidia/ultralong-67c773cfe53a9a518841fbbe

PS собираемся и собираем все крутое по АИшке (и проектики делаем, да) тут https://www.tgoop.com/researchim

arXiv.org

From 128K to 4M: Efficient Training of Ultra-Long Context Large...

Long-context capabilities are essential for a wide range of applications, including document and video understanding, in-context learning, and inference-time scaling, all of which require models...

👍11🔥7❤3

1.59K viewsedited 13:39

Агенты ИИ | AGI_and_RL

В майкрософте озаботились окружением в котором модельке было бы удобнее править проекты с кодом с использованием pdb (питон дебагер)

Т.е. чтобы не просто моделька могла запускать код и смотреть на трейсы ошибок но и вызывать pdb, ставить по коду брейкпоинты и детальнее видеть как там исполнение происходит

Для ресечей пойдет (в кодовых агентах и по безопасности например)

https://microsoft.github.io/debug-gym/

https://github.com/microsoft/debug-gym

🔥10❤8👍5

1.58K viewsedited 16:53

Агенты ИИ | AGI_and_RL

Ребят, если кто смотреть будет (или смотрит)

https://www.youtube.com/watch?v=kA-P9ood-cE

напишите в коментах если чего интересного увидите

YouTube

GPT 4.1 in the API

Join Michelle Pokrass, Ishaan Singal, and Kevin Weil as they introduce and demo our new family of GPT-4.1 models in the API

💯9👍2😎1

1.46K views17:09

Агенты ИИ | AGI_and_RL

Я буду кидать очередной имплемент GRPO когда вы меньше всего этого ждете.
Я и сам не ждал

https://github.com/policy-gradient/GRPO-Zero

GitHub

GitHub - policy-gradient/GRPO-Zero: Implementing DeepSeek R1's GRPO algorithm from scratch

Implementing DeepSeek R1's GRPO algorithm from scratch - policy-gradient/GRPO-Zero

😁3👍1

1.44K views09:40

Агенты ИИ | AGI_and_RL

шьто-то пусто в коментах. Пригоршня гпт 4.1 вас не удивила?

Жду локальную модельку от ОпенАИ. Может они прям всех разорвут в опенсурсе? Хотелось бы.

😁8🤔2🤣2

1.48K views09:52

Агенты ИИ | AGI_and_RL

Не кажется ли вам, что инновации ОпенАИ как бы подсократились в последнее время?
Ресерч их как будто сжался

💯19😁16🤨7🕊2😢1

1.7K views11:09

Агенты ИИ | AGI_and_RL

Ребята из OpenPipe выкладывают Agent Reinforcement Trainer (ART)

https://github.com/OpenPipe/ART
Пишут что есть multi-turn. При этом базируются на анслот + trl.

По сути делают то же, что и мы в https://github.com/researchim-ai/re-tiny-grpo
Недавно заехал пример по трену модельки юзать калькулятор на первом шаге, а на втором просто отдавать то что посчитал калькулятор в <answer> тегах.
Multi-turn позволяет на последующих шагах трена переиспользовать например ответы из вызванных инструментов на предыдущих шагах.
Работаю над новыми примерами сейчас. Название чуть позже обновится думаю) Это тоже штука планируется для агентских задач.

Все по ИИшечке собираем и проектики делаем в https://www.tgoop.com/researchim

GitHub

GitHub - OpenPipe/ART: Agent Reinforcement Trainer for training multi-turn agents using GRPO

Agent Reinforcement Trainer for training multi-turn agents using GRPO - OpenPipe/ART

✍10🤔4👍3

1.55K views12:47

Агенты ИИ | AGI_and_RL

Один раз исследователи не написали обзорку по агентам, больше их никто не видел

Эти написали. И в основном они из salesforce (они иногда очень прикольные вещи делают 🥰)
обозреваем

A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems
https://arxiv.org/abs/2504.09037

Please open Telegram to view this post

VIEW IN TELEGRAM

✍6❤4🤔2

1.48K views07:08

Агенты ИИ | AGI_and_RL

https://ai-2027.com/ Кто-нибудь читал? Стоит вообще открывать?

👍26😁9🥱4👎3❤2🥰1💅1

1.61K views07:53

Агенты ИИ | AGI_and_RL

Forwarded from Альберт Ф

так смешнее

😁37👍6🤣3😢1

1.47K views08:07

Агенты ИИ | AGI_and_RL

Forwarded from AI для Всех (Artemii)

Genius: Когда языковая модель начинает учиться сама

Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика. Просто — 25 000 обычных вопросов. А она сама начинает думать лучше.

Это не фантастика. Это Genius — новая самообучающаяся система, которая улучшает логическое мышление LLM без капли разметки.

Почему это вообще возможно?

Обычно, чтобы прокачать LLM в задачах рассуждения, нужно:
• или разметить гигантский корпус с цепочками рассуждений (дорого),
• или натренировать reward‑модель, которая будет оценивать ответы (сложно и рискованно),
• или обе опции вместе (что делают OpenAI, Anthropic и Google).

Genius идёт другим путём. Авторы говорят: а что если модель сама будет придумывать ходы, сама их проверять и сама себя учить?

Как это работает?

Ключевой приём — Stepwise Foresight Re-sampling:
1. Модель отвечает не сразу — а по шагам.
2. На каждом шаге она пробует несколько вариантов следующего действия.
3. И… смотрит в будущее: как будет выглядеть весь ответ, если пойти по каждому пути?
4. Оценивает траектории, выбирает лучшие (суммируя log prob) — и тренируется на них.

Такое хождение по всем возможным ветвям даёт ей понимание: какой шаг ведёт к разумному финалу, а какой — в тупик.

Но есть проблема: оценки могут быть шумными. Иногда «плохой» шаг случайно выглядит хорошим. Чтобы не начать учиться на ошибках, в игру вступает второй приём — Advantage-Calibrated Optimization:
• Он сравнивает не только “награду” текущего шага, но и то, насколько он лучше предыдущего.
• Если “плохой” шаг оказался неожиданно полезным — штраф за него снижается.
• Это делает обучение более устойчивым, без переобучения на случайные успехи.

А теперь самое интересное — результаты.
• Всего 25 000 обычных вопросов (без ответов!) дали +7 pp к точности рассуждений на бенчмарках вроде GSM8K, ReClor и AIME 2024.
• Работает на LLaMA3.1, Qwen2.5, и вообще без привязки к архитектуре.
• Не ломает базовые знания: на MMLU и WikiBench — стабильность.
• Лучше всех baseline-методов, включая supervised fine-tuning и Self-Rewarding.

Статья

❤18🔥11👍5

1.3K views17:02

Агенты ИИ | AGI_and_RL

AI для Всех

Genius: Когда языковая модель начинает учиться сама Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика. Просто — 25 000 обычных вопросов. А она сама начинает думать лучше. Это не фантастика. Это Genius — новая самообучающаяся…

Дополню ещё ссылкой на код, там ссылка на hf с модельками тоже есть

https://github.com/xufangzhi/Genius

🔥13👍3🤝2

1.54K viewsedited 17:04

Агенты ИИ | AGI_and_RL

Не кажется ли вам, что инновации ОпенАИ как бы подсократились в последнее время? Ресерч их как будто сжался

Из вчерашнего релиза ОпенАИ имеем революционные и рекордные o3 и o4-mini

ну и они выпустили кодового агента

https://github.com/openai/codex

Но я пока все же на курсоре останусь

GitHub

GitHub - openai/codex: Lightweight coding agent that runs in your terminal

Lightweight coding agent that runs in your terminal - openai/codex

1👌6👍2

1.47K viewsedited 10:03

Агенты ИИ | AGI_and_RL

Из реально прикольного пишут что автономный дрон из Micro Air Vehicle Lab Делфта обошел 13 других дронов, а еще обошел людей в гонках на A2RL Drone Championship в Абу Даби

Пару лет назад дрон уже обгонял людей, но там была предустановленная исследователями трасса. А в этой новости пишут, что трасса бала организаторами сделана (т.е. они или не затачивались под нее специально, или затачивались но не так сильно - тут я чот не очень понял).
RLем тренили
🥳 Оч круто

https://www.youtube.com/watch?v=yz2in2eFATE

https://www.tudelft.nl/2025/lr/wereldprimeur-tu-delft-ai-drone-wint-van-menselijke-bestuurders-op-wk-drone-racen

На ютубе на эту работу ссылаются

End-to-end Reinforcement Learning for Time-Optimal Quadcopter Flight
https://ieeexplore.ieee.org/document/10611665
https://arxiv.org/abs/2311.16948

PS Собираем кстати AI штуки и проекты делаем в https://www.tgoop.com/researchim

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Autonomous Drone from TU Delft Defeats Human Champions in Historic Racing First

- https://www.linkedin.com/posts/tudelft_university-technology-innovation-ugcPost-7317863383142191105-hRgA?utm_source=share&utm_medium=member_desktop&rcm=ACoAAADJp08B9kdY-Ab21RQeBQVD_GoXFdPhx2c
- https://www.linkedin.com/posts/tu-delft-aerospace-engineering_aetudelft…

🔥13😱5👍4

7.56K viewsedited 10:26

2025/07/13 11:11:57
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>