Агенты ИИ | AGI_and_RL 1116

Forwarded from AI[ex]Time (Alex Golubev)

SWE-rebench: A Continuously Evolving and Decontaminated Benchmark for Software Engineering LLMs

Сегодня стандартом для оценки SWE агентов является SWE-bench Verified. Его задумка очень понятная и как-то приближена к разработке чего-то большего, чем генерация кода: мы запускаем агента на настоящих задачках из GitHub, проверяем в конце прохождение отложенных тестов и смотрим на их результат. Но с SWE-bench Verified есть несколько проблем:

- Изначальный датасет был публично выложен в конце 2023 года. Последние модели может и неявно, но с очень высокой вероятностью захватили все эти данные в обучении, отчего рост чисел на бенче на какую-то часть связан с контаминацией. Да и без этого многие используют Verified как валидацию для экспериментов с агентом, неявно переобучаясь под него. По этой же причине в свое время появился LiveCodeBench для решения обычных задач для кодинга.
- Самые первые релизы на лидерборде хорошо описывали структуру агента и параметры запуска так, что было понятно, что вот это решение докинуло за счет перевода с gpt4o на sonnet-3.5, а вот это — просто промпты потюнили или тулы сделали лучше. Сейчас же лидерборд превратился в солянку, по которой просто непонятно, что происходит: best-of-N запуски, верификация доп тестами, MCTS, миллион разных скаффолдингов, уже даже непонятно, какая модель используется внутри, тк многие сабмиты на лидерборде — это закрытые решения компаний.

Мы попробовали закрыть часть этих пробелов и сегодня релизим SWE-rebench! Для борьбы с потенциальной контаминацией, мы будем регулярно обновлять лидерборд с замерами на свежих задачах. Скаффолдинг агента при этом везде фиксирован, чтобы запуски с разными моделями были сравнимы между собой. Так как наш пайплайн сбора данных позволяет автоматически контролировать сложность задач, то в будущем мы будем использовать это для борьбы с насыщением бенчмарка.

Детали можно прочитать на сайте самого бенча, ну и конечно приглашаю заглянуть на текущий лидерборд. Если вы привыкли читать обзоры в Х, там тоже есть подходящий контент.

🤔5🔥4👍3

1.48K views14:51

Агенты ИИ | AGI_and_RL

Там потестили модельки на написание солверов для уравнений в частных производных. Дали на тест 5 типов уравнений

Уравнение адвекции: Моделируют явления переноса без диффузии
Уравнение Бюргерса: Фундаментальное нелинейное УЧП, используемое в механике жидкости
Уравнение реакции-диффузии: Моделирует системы, в которых химические вещества подвергаются реакциям и диффузии
Уравнение Кана-Хиллиарда-Навье-Стокса (CNS): Описывает двухфазные несжимаемые потоки
Уравнение фильтрации Дарси: Моделирует поток жидкости через пористую среду

На последнем скрине предпочтения LLMок по использованию разных библиотек

Кстати возможность подебагать код и получать фидбек сильно подкидывает качество. С фреймворком который написали авторы (который правильно ставит задачу, дает дебагать и фидбек) ллмки справляются на уровне эспертов или даже лучше справляются

CodePDE: An Inference Framework for LLM-driven PDE Solver Generation
https://arxiv.org/abs/2505.08783
https://www.alphaxiv.org/ru/overview/2505.08783

https://github.com/LithiumDA/CodePDE

инфу по иишечке собираем и проектики делаем в https://www.tgoop.com/researchim

👍10🔥6❤3

2.28K views13:40

Агенты ИИ | AGI_and_RL

Forwarded from Dmitry Rybin 人工智能

Привет! А мы тут не отстаем от Дипмайнда: нашли новый алгоритм умножения X*X^t.

Для 4x4 матриц получили алгоритм с 34 умножениями (у SotA было 38).

Для n x n при больших n на 5% быстрее.

https://arxiv.org/abs/2505.09814

🔥43👍11❤8🤔1

2.45K views16:12

Агенты ИИ | AGI_and_RL

Обзор по thinkingу от Лилиан Венг

Why We Think
https://lilianweng.github.io/posts/2025-05-01-thinking/

lilianweng.github.io

Why We Think

Special thanks to John Schulman for a lot of super valuable feedback and direct edits on this post.
Test time compute (Graves et al. 2016, Ling, et al. 2017, Cobbe et al. 2021) and Chain-of-thought (CoT) (Wei et al. 2022, Nye et al. 2021), have led to significant…

❤11👍4🤔1

2.13K views12:44

Агенты ИИ | AGI_and_RL

у любителей ллмного RLя сегодня снова приподнятое настроение

там потюнили квен coder 7б с PPO, чтобы он оптимизировал асемблерный код. Ну и получили ускорение в среднем x1.47 (дефолтный 7б кодер x1.1 выдавал), и % компиляции с 79% до 96% поднял
ну и круче других протесченых ллмок получилось 🎹

Improving Assembly Code Performance with Large Language Models via Reinforcement Learning
https://www.arxiv.org/abs/2505.11480

увидел в https://www.tgoop.com/j_links кстати

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥19👍4❤2🤔1

2.21K viewsedited 18:14

Агенты ИИ | AGI_and_RL

Вышла вторая версия овервьюшки по RL (современному), теперь 177 страничек (было 144) Reinforcement Learning: A Comprehensive Overview https://arxiv.org/abs/2412.05265v2

3я версия вышла, 216 страничек теперь. LLM RLя больше стало

https://arxiv.org/abs/2412.05265v3

arXiv.org

Reinforcement Learning: An Overview

This manuscript gives a big-picture, up-to-date overview of the field of (deep) reinforcement learning and sequential decision making, covering value-based methods, policy-based methods,...

🔥10👍2

2.38K views06:03

Агенты ИИ | AGI_and_RL

Кстати, вообще считаю что вайбкодинг это очень круто если понимаешь что делаешь. Прямо быстро можно прототипчик сделать чего угодно. Да и с ллмками можно вполне разобраться почти в любой теме если есть желание.

В одного с ллмными агентами щас можно собрать почти все.

👍32🔥5🦄5

2.02K viewsedited 06:09

Агенты ИИ | AGI_and_RL

Ребят, если что интересного увидите в презухе гугла, черкните в коменты плиз
И надо будет посчитать количество упоминаний ИИ агентов

👍8🥱3👌2

1.83K viewsedited 17:48

Агенты ИИ | AGI_and_RL

https://huggingface.co/mistralai/Devstral-Small-2505

Новая кодовая агентная открытая моделька от мистраля. 24B, 128к контекст
В сыром виде в 3090/4090 не влезет, надо подождать awq

lm-studio уже сделали GGUF кванты, можно в LM studio или llama.cpp пробовать запускать
https://huggingface.co/lmstudio-community/Devstral-Small-2505-GGUF

интересно что там с русским

🔥12👍4❤2

1.82K viewsedited 14:49

Агенты ИИ | AGI_and_RL

Forwarded from Ruadaptная комната

Всем привет! Рад сообщить о нашем новом релизе RuadaptQwen3-32B-Instruct 🎉. Это адаптированная версия Qwen3-32B, которая также является гибридным ризонером с режимом размышлений по-умолчанию.

Отличия текущего релиза от прошлых:

1. Версионирование: теперь версионирование моделей будет идти внутри одного репозитория, но в Versions будут отмечены даты и соответствующие коммиты, которые могут быть использованы, если кому-то больше понравится “прошлая версия”. Таким образом мне проще выкладывать текущие наработки, которые я все еще не могу назвать итоговыми, но которые уже неплохи на мой взгляд.

2. Процедура адаптации была улучшена: токенайзер содержит потерянные смайлы и не содержит ненужных цифр, количество данных в continued pretraining было увеличено вдвое и еще несколько минорных изменений процедуры, которые приводят к бОльшему качеству на выходе.
Так как для Qwen3-32B не была выложена базовая версия, мы сделали ее сами, дообучив только эмбеддинги (входные и выходные) на +-миллиарде токенов.

3. Новый набор для SFT и пока что отсутствие Pref-tuning этапа: в этот раз данные для обучения были сгенерированы на основе большой модели Qwen3-235B-A22B. Для сохранения функции переключения между режимами, в 30% случаев think содержимое выбрасывалось и добавлялся /no_think токен к последнему сообщению пользователя. Для 10% случаев, когда размышления оставались добавлялся токен /think. Используемый датасет выложен и упомянут в карточке модели.

4. Метрик пока нет, но в целом имеется некоторая просадка на мат. задачах, однако для обычного использования все должно быть +- на уровне исходной версии.

Если заметите плохие или наоборот хорошие стороны модели - обязательно пишите, так как сейчас активно идут работы над инструктивной частью и фидбек по поводу проблем будет очень актуален.

Модель: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct-GGUF
Space: https://huggingface.co/spaces/RefalMachine/RuadaptQwen3

huggingface.co

RefalMachine/RuadaptQwen3-32B-Instruct-GGUF · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥8👍5🤔2❤1

1.56K views09:09

Агенты ИИ | AGI_and_RL

ллмный RL апдейтит лишь 5%-30% весов
и эти веса образуют подсеть, которую можно тюнить рлем саму по себе (заморозив остальные веса) и после тюна она будет почти такой же как если тюнить всю модель

Причем
- Каждый слой и каждая матрица (Q, K, V, FFN) получает одинаково разреженные, но при этом почти полноранговые обновления, параметры LayerNorm практически не трогаются.
- Для одной и той же базовой модели «активные» подсети, полученные при разных сидax, датасетax и даже разных RL-алгоритмах, перекрываются гораздо сильнее случайного, а значит существует частично переносимая структура подсети
- если потюнить эти регионы с замороженными остальными весами, то можно даже пару процентов докинуть на тесте
- большая разреженность сохраняется на 7 алгоритмах (PPO, GRPO, ORPO, KTO, DPO, SimPO, PRIME) и 10 моделях разных семейств.
- SFT на тех же данных до RLя особо картину не меняет, разреженность ~ та же на RLе
- на примере PRIME алгоритма показали что со временем разреженность падает, т.е. апдейтится все больше весов

Авторы связывают основную причину большой разреженности с тюнингом/рлем на in-distribution данных. Например DPO на out-of-distribution показало что тюнится 94% весов, ка и с SFT.
Так понял.

Reinforcement Learning Finetunes Small Subnetworks in Large Language Models
https://arxiv.org/abs/2505.11711
https://www.alphaxiv.org/ru/overview/2505.11711

PS собираем всякое крутое по ИИ и проектики делаем в https://www.tgoop.com/researchim

👍11❤6🔥4

2.29K views18:36

Агенты ИИ | AGI_and_RL

Forwarded from Vikhr models

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

ToneSpeak - первый русскоязычный датасет с описанием акецента и настроения.

Сгенерили через openai api, получилось очень приятно, пользуйтесь!

Huggingface

2🔥14❤4👍2💩1

1.37K views09:04

Агенты ИИ | AGI_and_RL

Ну что как вам клод 4?
Чот у меня пока неоднозначненько. Пока тыкаю сонет в курсоре, но блин он реально часто делает что-то не то. Но всегда ставит смайлики везде.
😃😢😱💋😳 - 99% кода (ладно не 99. но больше чем надо)

Выглядит так, что он буквально симулирует деятельность. В результате реально ничего не работает

скрин из поста https://x.com/vasumanmoza/status/1926487201463832863

😁16🔥15👍4😢2

2.18K viewsedited 05:39

2025/07/13 13:13:33
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>