Forwarded from AI[ex]Time (Alex Golubev)
SWE-rebench: A Continuously Evolving and Decontaminated Benchmark for Software Engineering LLMs
Сегодня стандартом для оценки SWE агентов является SWE-bench Verified. Его задумка очень понятная и как-то приближена к разработке чего-то большего, чем генерация кода: мы запускаем агента на настоящих задачках из GitHub, проверяем в конце прохождение отложенных тестов и смотрим на их результат. Но с SWE-bench Verified есть несколько проблем:
- Изначальный датасет был публично выложен в конце 2023 года. Последние модели может и неявно, но с очень высокой вероятностью захватили все эти данные в обучении, отчего рост чисел на бенче на какую-то часть связан с контаминацией. Да и без этого многие используют Verified как валидацию для экспериментов с агентом, неявно переобучаясь под него. По этой же причине в свое время появился LiveCodeBench для решения обычных задач для кодинга.
- Самые первые релизы на лидерборде хорошо описывали структуру агента и параметры запуска так, что было понятно, что вот это решение докинуло за счет перевода с gpt4o на sonnet-3.5, а вот это — просто промпты потюнили или тулы сделали лучше. Сейчас же лидерборд превратился в солянку, по которой просто непонятно, что происходит: best-of-N запуски, верификация доп тестами, MCTS, миллион разных скаффолдингов, уже даже непонятно, какая модель используется внутри, тк многие сабмиты на лидерборде — это закрытые решения компаний.
Мы попробовали закрыть часть этих пробелов и сегодня релизим SWE-rebench! Для борьбы с потенциальной контаминацией, мы будем регулярно обновлять лидерборд с замерами на свежих задачах. Скаффолдинг агента при этом везде фиксирован, чтобы запуски с разными моделями были сравнимы между собой. Так как наш пайплайн сбора данных позволяет автоматически контролировать сложность задач, то в будущем мы будем использовать это для борьбы с насыщением бенчмарка.
Детали можно прочитать на сайте самого бенча, ну и конечно приглашаю заглянуть на текущий лидерборд. Если вы привыкли читать обзоры в Х, там тоже есть подходящий контент.
Сегодня стандартом для оценки SWE агентов является SWE-bench Verified. Его задумка очень понятная и как-то приближена к разработке чего-то большего, чем генерация кода: мы запускаем агента на настоящих задачках из GitHub, проверяем в конце прохождение отложенных тестов и смотрим на их результат. Но с SWE-bench Verified есть несколько проблем:
- Изначальный датасет был публично выложен в конце 2023 года. Последние модели может и неявно, но с очень высокой вероятностью захватили все эти данные в обучении, отчего рост чисел на бенче на какую-то часть связан с контаминацией. Да и без этого многие используют Verified как валидацию для экспериментов с агентом, неявно переобучаясь под него. По этой же причине в свое время появился LiveCodeBench для решения обычных задач для кодинга.
- Самые первые релизы на лидерборде хорошо описывали структуру агента и параметры запуска так, что было понятно, что вот это решение докинуло за счет перевода с gpt4o на sonnet-3.5, а вот это — просто промпты потюнили или тулы сделали лучше. Сейчас же лидерборд превратился в солянку, по которой просто непонятно, что происходит: best-of-N запуски, верификация доп тестами, MCTS, миллион разных скаффолдингов, уже даже непонятно, какая модель используется внутри, тк многие сабмиты на лидерборде — это закрытые решения компаний.
Мы попробовали закрыть часть этих пробелов и сегодня релизим SWE-rebench! Для борьбы с потенциальной контаминацией, мы будем регулярно обновлять лидерборд с замерами на свежих задачах. Скаффолдинг агента при этом везде фиксирован, чтобы запуски с разными моделями были сравнимы между собой. Так как наш пайплайн сбора данных позволяет автоматически контролировать сложность задач, то в будущем мы будем использовать это для борьбы с насыщением бенчмарка.
Детали можно прочитать на сайте самого бенча, ну и конечно приглашаю заглянуть на текущий лидерборд. Если вы привыкли читать обзоры в Х, там тоже есть подходящий контент.
🤔5🔥4👍3
Там потестили модельки на написание солверов для уравнений в частных производных. Дали на тест 5 типов уравнений
На последнем скрине предпочтения LLMок по использованию разных библиотек
Кстати возможность подебагать код и получать фидбек сильно подкидывает качество. С фреймворком который написали авторы (который правильно ставит задачу, дает дебагать и фидбек) ллмки справляются на уровне эспертов или даже лучше справляются
CodePDE: An Inference Framework for LLM-driven PDE Solver Generation
https://arxiv.org/abs/2505.08783
https://www.alphaxiv.org/ru/overview/2505.08783
https://github.com/LithiumDA/CodePDE
инфу по иишечке собираем и проектики делаем в https://www.tgoop.com/researchim
Уравнение адвекции: Моделируют явления переноса без диффузии
Уравнение Бюргерса: Фундаментальное нелинейное УЧП, используемое в механике жидкости
Уравнение реакции-диффузии: Моделирует системы, в которых химические вещества подвергаются реакциям и диффузии
Уравнение Кана-Хиллиарда-Навье-Стокса (CNS): Описывает двухфазные несжимаемые потоки
Уравнение фильтрации Дарси: Моделирует поток жидкости через пористую среду
На последнем скрине предпочтения LLMок по использованию разных библиотек
Кстати возможность подебагать код и получать фидбек сильно подкидывает качество. С фреймворком который написали авторы (который правильно ставит задачу, дает дебагать и фидбек) ллмки справляются на уровне эспертов или даже лучше справляются
CodePDE: An Inference Framework for LLM-driven PDE Solver Generation
https://arxiv.org/abs/2505.08783
https://www.alphaxiv.org/ru/overview/2505.08783
https://github.com/LithiumDA/CodePDE
инфу по иишечке собираем и проектики делаем в https://www.tgoop.com/researchim
👍10🔥6❤3
Forwarded from Dmitry Rybin 人工智能
Привет! А мы тут не отстаем от Дипмайнда: нашли новый алгоритм умножения X*X^t.
Для 4x4 матриц получили алгоритм с 34 умножениями (у SotA было 38).
Для n x n при больших n на 5% быстрее.
https://arxiv.org/abs/2505.09814
Для 4x4 матриц получили алгоритм с 34 умножениями (у SotA было 38).
Для n x n при больших n на 5% быстрее.
https://arxiv.org/abs/2505.09814
🔥43👍11❤8🤔1
Обзор по thinkingу от Лилиан Венг
Why We Think
https://lilianweng.github.io/posts/2025-05-01-thinking/
Why We Think
https://lilianweng.github.io/posts/2025-05-01-thinking/
lilianweng.github.io
Why We Think
Special thanks to John Schulman for a lot of super valuable feedback and direct edits on this post.
Test time compute (Graves et al. 2016, Ling, et al. 2017, Cobbe et al. 2021) and Chain-of-thought (CoT) (Wei et al. 2022, Nye et al. 2021), have led to significant…
Test time compute (Graves et al. 2016, Ling, et al. 2017, Cobbe et al. 2021) and Chain-of-thought (CoT) (Wei et al. 2022, Nye et al. 2021), have led to significant…
❤11👍4🤔1
у любителей ллмного RLя сегодня снова приподнятое настроение
там потюнили квен coder 7б с PPO, чтобы он оптимизировал асемблерный код. Ну и получили ускорение в среднем x1.47 (дефолтный 7б кодер x1.1 выдавал), и % компиляции с 79% до 96% поднял
ну и круче других протесченых ллмок получилось🎹
Improving Assembly Code Performance with Large Language Models via Reinforcement Learning
https://www.arxiv.org/abs/2505.11480
увидел в https://www.tgoop.com/j_links кстати
там потюнили квен coder 7б с PPO, чтобы он оптимизировал асемблерный код. Ну и получили ускорение в среднем x1.47 (дефолтный 7б кодер x1.1 выдавал), и % компиляции с 79% до 96% поднял
ну и круче других протесченых ллмок получилось
Improving Assembly Code Performance with Large Language Models via Reinforcement Learning
https://www.arxiv.org/abs/2505.11480
увидел в https://www.tgoop.com/j_links кстати
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍4❤2🤔1
Агенты ИИ | AGI_and_RL
Вышла вторая версия овервьюшки по RL (современному), теперь 177 страничек (было 144) Reinforcement Learning: A Comprehensive Overview https://arxiv.org/abs/2412.05265v2
arXiv.org
Reinforcement Learning: An Overview
This manuscript gives a big-picture, up-to-date overview of the field of (deep) reinforcement learning and sequential decision making, covering value-based methods, policy-based methods,...
🔥10👍2
Кстати, вообще считаю что вайбкодинг это очень круто если понимаешь что делаешь. Прямо быстро можно прототипчик сделать чего угодно. Да и с ллмками можно вполне разобраться почти в любой теме если есть желание.
В одного с ллмными агентами щас можно собрать почти все.
В одного с ллмными агентами щас можно собрать почти все.
👍32🔥5🦄5
Ребят, если что интересного увидите в презухе гугла, черкните в коменты плиз
И надо будет посчитать количество упоминаний ИИ агентов
И надо будет посчитать количество упоминаний ИИ агентов
👍8🥱3👌2
https://huggingface.co/mistralai/Devstral-Small-2505
Новая кодовая агентная открытая моделька от мистраля. 24B, 128к контекст
В сыром виде в 3090/4090 не влезет, надо подождать awq
lm-studio уже сделали GGUF кванты, можно в LM studio или llama.cpp пробовать запускать
https://huggingface.co/lmstudio-community/Devstral-Small-2505-GGUF
интересно что там с русским
Новая кодовая агентная открытая моделька от мистраля. 24B, 128к контекст
В сыром виде в 3090/4090 не влезет, надо подождать awq
lm-studio уже сделали GGUF кванты, можно в LM studio или llama.cpp пробовать запускать
https://huggingface.co/lmstudio-community/Devstral-Small-2505-GGUF
интересно что там с русским
🔥12👍4❤2
Forwarded from Ruadaptная комната
Всем привет! Рад сообщить о нашем новом релизе RuadaptQwen3-32B-Instruct 🎉. Это адаптированная версия Qwen3-32B, которая также является гибридным ризонером с режимом размышлений по-умолчанию.
Отличия текущего релиза от прошлых:
1. Версионирование: теперь версионирование моделей будет идти внутри одного репозитория, но в Versions будут отмечены даты и соответствующие коммиты, которые могут быть использованы, если кому-то больше понравится “прошлая версия”. Таким образом мне проще выкладывать текущие наработки, которые я все еще не могу назвать итоговыми, но которые уже неплохи на мой взгляд.
2. Процедура адаптации была улучшена: токенайзер содержит потерянные смайлы и не содержит ненужных цифр, количество данных в continued pretraining было увеличено вдвое и еще несколько минорных изменений процедуры, которые приводят к бОльшему качеству на выходе.
Так как для Qwen3-32B не была выложена базовая версия, мы сделали ее сами, дообучив только эмбеддинги (входные и выходные) на +-миллиарде токенов.
3. Новый набор для SFT и пока что отсутствие Pref-tuning этапа: в этот раз данные для обучения были сгенерированы на основе большой модели Qwen3-235B-A22B. Для сохранения функции переключения между режимами, в 30% случаев think содержимое выбрасывалось и добавлялся /no_think токен к последнему сообщению пользователя. Для 10% случаев, когда размышления оставались добавлялся токен /think. Используемый датасет выложен и упомянут в карточке модели.
4. Метрик пока нет, но в целом имеется некоторая просадка на мат. задачах, однако для обычного использования все должно быть +- на уровне исходной версии.
Если заметите плохие или наоборот хорошие стороны модели - обязательно пишите, так как сейчас активно идут работы над инструктивной частью и фидбек по поводу проблем будет очень актуален.
Модель: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct-GGUF
Space: https://huggingface.co/spaces/RefalMachine/RuadaptQwen3
Отличия текущего релиза от прошлых:
1. Версионирование: теперь версионирование моделей будет идти внутри одного репозитория, но в Versions будут отмечены даты и соответствующие коммиты, которые могут быть использованы, если кому-то больше понравится “прошлая версия”. Таким образом мне проще выкладывать текущие наработки, которые я все еще не могу назвать итоговыми, но которые уже неплохи на мой взгляд.
2. Процедура адаптации была улучшена: токенайзер содержит потерянные смайлы и не содержит ненужных цифр, количество данных в continued pretraining было увеличено вдвое и еще несколько минорных изменений процедуры, которые приводят к бОльшему качеству на выходе.
Так как для Qwen3-32B не была выложена базовая версия, мы сделали ее сами, дообучив только эмбеддинги (входные и выходные) на +-миллиарде токенов.
3. Новый набор для SFT и пока что отсутствие Pref-tuning этапа: в этот раз данные для обучения были сгенерированы на основе большой модели Qwen3-235B-A22B. Для сохранения функции переключения между режимами, в 30% случаев think содержимое выбрасывалось и добавлялся /no_think токен к последнему сообщению пользователя. Для 10% случаев, когда размышления оставались добавлялся токен /think. Используемый датасет выложен и упомянут в карточке модели.
4. Метрик пока нет, но в целом имеется некоторая просадка на мат. задачах, однако для обычного использования все должно быть +- на уровне исходной версии.
Если заметите плохие или наоборот хорошие стороны модели - обязательно пишите, так как сейчас активно идут работы над инструктивной частью и фидбек по поводу проблем будет очень актуален.
Модель: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct-GGUF
Space: https://huggingface.co/spaces/RefalMachine/RuadaptQwen3
huggingface.co
RefalMachine/RuadaptQwen3-32B-Instruct-GGUF · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥8👍5🤔2❤1
ллмный RL апдейтит лишь 5%-30% весов
и эти веса образуют подсеть, которую можно тюнить рлем саму по себе (заморозив остальные веса) и после тюна она будет почти такой же как если тюнить всю модель
Причем
- Каждый слой и каждая матрица (Q, K, V, FFN) получает одинаково разреженные, но при этом почти полноранговые обновления, параметры LayerNorm практически не трогаются.
- Для одной и той же базовой модели «активные» подсети, полученные при разных сидax, датасетax и даже разных RL-алгоритмах, перекрываются гораздо сильнее случайного, а значит существует частично переносимая структура подсети
- если потюнить эти регионы с замороженными остальными весами, то можно даже пару процентов докинуть на тесте
- большая разреженность сохраняется на 7 алгоритмах (PPO, GRPO, ORPO, KTO, DPO, SimPO, PRIME) и 10 моделях разных семейств.
- SFT на тех же данных до RLя особо картину не меняет, разреженность ~ та же на RLе
- на примере PRIME алгоритма показали что со временем разреженность падает, т.е. апдейтится все больше весов
Авторы связывают основную причину большой разреженности с тюнингом/рлем на in-distribution данных. Например DPO на out-of-distribution показало что тюнится 94% весов, ка и с SFT.
Так понял.
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models
https://arxiv.org/abs/2505.11711
https://www.alphaxiv.org/ru/overview/2505.11711
PS собираем всякое крутое по ИИ и проектики делаем в https://www.tgoop.com/researchim
и эти веса образуют подсеть, которую можно тюнить рлем саму по себе (заморозив остальные веса) и после тюна она будет почти такой же как если тюнить всю модель
Причем
- Каждый слой и каждая матрица (Q, K, V, FFN) получает одинаково разреженные, но при этом почти полноранговые обновления, параметры LayerNorm практически не трогаются.
- Для одной и той же базовой модели «активные» подсети, полученные при разных сидax, датасетax и даже разных RL-алгоритмах, перекрываются гораздо сильнее случайного, а значит существует частично переносимая структура подсети
- если потюнить эти регионы с замороженными остальными весами, то можно даже пару процентов докинуть на тесте
- большая разреженность сохраняется на 7 алгоритмах (PPO, GRPO, ORPO, KTO, DPO, SimPO, PRIME) и 10 моделях разных семейств.
- SFT на тех же данных до RLя особо картину не меняет, разреженность ~ та же на RLе
- на примере PRIME алгоритма показали что со временем разреженность падает, т.е. апдейтится все больше весов
Авторы связывают основную причину большой разреженности с тюнингом/рлем на in-distribution данных. Например DPO на out-of-distribution показало что тюнится 94% весов, ка и с SFT.
Так понял.
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models
https://arxiv.org/abs/2505.11711
https://www.alphaxiv.org/ru/overview/2505.11711
PS собираем всякое крутое по ИИ и проектики делаем в https://www.tgoop.com/researchim
👍11❤6🔥4
Forwarded from Vikhr models
This media is not supported in your browser
VIEW IN TELEGRAM
ToneSpeak - первый русскоязычный датасет с описанием акецента и настроения.
Сгенерили через openai api, получилось очень приятно, пользуйтесь!
Huggingface
Сгенерили через openai api, получилось очень приятно, пользуйтесь!
Huggingface
2🔥14❤4👍2💩1
Ну что как вам клод 4?
Чот у меня пока неоднозначненько. Пока тыкаю сонет в курсоре, но блин он реально часто делает что-то не то. Но всегда ставит смайлики везде.
😃😢😱💋😳 - 99% кода (ладно не 99. но больше чем надо)
Выглядит так, что он буквально симулирует деятельность. В результате реально ничего не работает
скрин из поста https://x.com/vasumanmoza/status/1926487201463832863
Чот у меня пока неоднозначненько. Пока тыкаю сонет в курсоре, но блин он реально часто делает что-то не то. Но всегда ставит смайлики везде.
😃😢😱💋😳 - 99% кода (ладно не 99. но больше чем надо)
Выглядит так, что он буквально симулирует деятельность. В результате реально ничего не работает
скрин из поста https://x.com/vasumanmoza/status/1926487201463832863
😁16🔥15👍4😢2