🌸Спидраним NanoGPT агентами: новый бенчмарк🌸
#nlp #про_nlp #nlp_papers
На днях мы с коллегами опубликовали новую статью и бенчмарк для агентов, сделанный на основе NanoGPT speedrun от Карпаты:
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements
NanoGPT speedrun — это открытый репозиторий, где сообщество соревнуется в оптимизации обучения мини-GPT2 модели. Бейзлайн — llm.c от Карпаты, написанный в рамках туториала на чистой C/CUDA.
У спидрана Карпаты есть публичный лидерборд с историей рекордов, кратким описанием изменений и кодом (сейчас их 21).
Все это делает его идеальным исходником для оценки агентов: смогут ли они воспроизвести и улучшить результаты?
🌸Дизайн бенчмарка:
В бенчмарке две основные группы задач:
🟣 воспроизводимость — агенту нужно воспроизвести рекорд R+1, когда рекорд R дается в качестве бейзлайна для итерирования, со всей информацией об основных нововведениях.
🟣 оптимизация — агенту нужно улучшить бейзлайн R, но безо всяких подсказок. Основная метрика — нормализованное улучшение рантайма обучения в среднем по всем попыткам.
Scaffold агента ученого реализует цикл экспериментирования, состоящий из нескольких этапов:
Можно использовать агентов с любыми скаффолдами, но в рамках работы мы продемонстрировали результаты на нескольких SOTA-бейзлайнах, включая AIDE и multi-AIDE. У каждого скаффолда есть циклы решений, состояние из
1) Идеации: генерации новых идей для проверки гипотез (в нашем случае идеи предоставляются непосредственно из задачи).
2) Реализация эксперимента: кодирование экспериментов, которые проверяют идеи, полученные на этапе формирования идей.
3) Выполнение эксперимента: запуск кода
4) Анализ результатов: извлечение идей из результатов
🌸Основные итоги:
Мы провели большое количество аблейшенов с разными моделями, чтобы сравнить, как scaffold и разные типы подсказок могут повлиять на качество агента.
Лучше всего показывают себя скаффолд Multi-AIDE, полный набор подсказок из псевдокода и текстового саммари. В редких случаях, агент достигает 100% или даже 120% от существующего решения, но в большинстве случаев результат сильно ниже.
Все модели, включая топовые, со state-of-the-art scaffold, все равно испытывают трудности при воспроизведении результатов.
И даже больше, пока что существенная разница сохраняется, когда агентам дается максимально полная информация о том, что надо сделать, и псевдокод. Хорошее качество воспроизводимости — из статей, репозиториев, инструкций — должно быть пререквизитом на пути к надежной и воспроизводимой автоматизации науки агентами.
🟣 Статья https://arxiv.org/abs/2506.22419
🟣 Бенчмарк https://github.com/facebookresearch/llm-speedrunner
#nlp #про_nlp #nlp_papers
На днях мы с коллегами опубликовали новую статью и бенчмарк для агентов, сделанный на основе NanoGPT speedrun от Карпаты:
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements
NanoGPT speedrun — это открытый репозиторий, где сообщество соревнуется в оптимизации обучения мини-GPT2 модели. Бейзлайн — llm.c от Карпаты, написанный в рамках туториала на чистой C/CUDA.
У спидрана Карпаты есть публичный лидерборд с историей рекордов, кратким описанием изменений и кодом (сейчас их 21).
Все это делает его идеальным исходником для оценки агентов: смогут ли они воспроизвести и улучшить результаты?
🌸Дизайн бенчмарка:
В бенчмарке две основные группы задач:
Scaffold агента ученого реализует цикл экспериментирования, состоящий из нескольких этапов:
Можно использовать агентов с любыми скаффолдами, но в рамках работы мы продемонстрировали результаты на нескольких SOTA-бейзлайнах, включая AIDE и multi-AIDE. У каждого скаффолда есть циклы решений, состояние из
1) Идеации: генерации новых идей для проверки гипотез (в нашем случае идеи предоставляются непосредственно из задачи).
2) Реализация эксперимента: кодирование экспериментов, которые проверяют идеи, полученные на этапе формирования идей.
3) Выполнение эксперимента: запуск кода
4) Анализ результатов: извлечение идей из результатов
🌸Основные итоги:
Мы провели большое количество аблейшенов с разными моделями, чтобы сравнить, как scaffold и разные типы подсказок могут повлиять на качество агента.
Лучше всего показывают себя скаффолд Multi-AIDE, полный набор подсказок из псевдокода и текстового саммари. В редких случаях, агент достигает 100% или даже 120% от существующего решения, но в большинстве случаев результат сильно ниже.
Все модели, включая топовые, со state-of-the-art scaffold, все равно испытывают трудности при воспроизведении результатов.
И даже больше, пока что существенная разница сохраняется, когда агентам дается максимально полная информация о том, что надо сделать, и псевдокод. Хорошее качество воспроизводимости — из статей, репозиториев, инструкций — должно быть пререквизитом на пути к надежной и воспроизводимой автоматизации науки агентами.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥36 9❤8 6👍4👎1😭1
🌸SOTA на MLE-bench и новый скаффолд для ML агентов🌸
#nlp #про_nlp #nlp_papers
Выпустили статью, как мы с коллегами исследуем различные факторы у агентов в решении ML-задач: AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench
🌸TL;DR
У агентов столько вариаций, доступных тулзов, даже базовых LLM — как выбрать?
Выбирать комбинацию под задачу, в данном случае — решение ML соревнований.
Рецепт: DeepSeek, улучшенный нами AIDE с различными стратегиями поиска, оптимизированным набором операторов и тулзов — AIRA dojo (код в опенсорсе).
🌸Эксперименты
Базовая модель, скаффолд агента, набор доступных действий и тулзов и методы оценки — влияют на результат в разных комбинациях.
Оптимизировать метод поиска решения и набор действий агента под задачу — выигрышнее, чем просто тратить больше времени на поиск или тратить больше вычислительных мощностей.
Попутно сделали SOTA на MLE bench — бенчмарке OpenAI для агентов на основе Kaggle-задач. MLE bench состоит из 75 задач различной сложности, каждая в контейнере и с бейзлайном, и агентам необходимо, итерируя эксперименты, получить золото Kaggle.
Наше лучшее сочетание базовой модели, стратегии поиска и набора операторов достигает передового результата на MLE-bench lite, увеличивая вероятность получения медали на Kaggle с 39,6% до 47,7%.
Протестировали
🟣 DeepSeek R1, O1, O3
🟣 AIDE, несколько типов поиска по дереву — Greedy, MCTS, Evolutionary
🌸Краткие выводы
— мы сделали SOTA на ML-задачах без какого-либо изменения моделей, просто аккуратно написав фреймворк, который позволил проанализировать вклад в итоговое качество разных частей пайплайна, и тем самым вылечить некоторые явные боттлнеки в действиях агента и в поиске решений.
— у всех агентов все ещё наблюдается систематический оверфит: во время поиска решения агентами используется результат на валидации, а тестсет не доступен. При проверке оказывается, что лучшие, более общие решения в графе решений были, но на валидации показали себя хуже и выбраны не были.
— оптимизация операторов и поиска под задачу помогает гораздо сильнее, чем просто давать агенту бесконечное количество попыток / компьюта — качество базовых моделей все ещё неидеальное, поэтому в случае неограниченного количества попыток ваш субоптимальный агент все равно выйдет на плато.
🟣 Arxiv статья
🟣 GitHub скаффолд для ML агентов
#nlp #про_nlp #nlp_papers
Выпустили статью, как мы с коллегами исследуем различные факторы у агентов в решении ML-задач: AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench
🌸TL;DR
У агентов столько вариаций, доступных тулзов, даже базовых LLM — как выбрать?
Выбирать комбинацию под задачу, в данном случае — решение ML соревнований.
Рецепт: DeepSeek, улучшенный нами AIDE с различными стратегиями поиска, оптимизированным набором операторов и тулзов — AIRA dojo (код в опенсорсе).
🌸Эксперименты
Базовая модель, скаффолд агента, набор доступных действий и тулзов и методы оценки — влияют на результат в разных комбинациях.
Оптимизировать метод поиска решения и набор действий агента под задачу — выигрышнее, чем просто тратить больше времени на поиск или тратить больше вычислительных мощностей.
Попутно сделали SOTA на MLE bench — бенчмарке OpenAI для агентов на основе Kaggle-задач. MLE bench состоит из 75 задач различной сложности, каждая в контейнере и с бейзлайном, и агентам необходимо, итерируя эксперименты, получить золото Kaggle.
Наше лучшее сочетание базовой модели, стратегии поиска и набора операторов достигает передового результата на MLE-bench lite, увеличивая вероятность получения медали на Kaggle с 39,6% до 47,7%.
Протестировали
🌸Краткие выводы
— мы сделали SOTA на ML-задачах без какого-либо изменения моделей, просто аккуратно написав фреймворк, который позволил проанализировать вклад в итоговое качество разных частей пайплайна, и тем самым вылечить некоторые явные боттлнеки в действиях агента и в поиске решений.
— у всех агентов все ещё наблюдается систематический оверфит: во время поиска решения агентами используется результат на валидации, а тестсет не доступен. При проверке оказывается, что лучшие, более общие решения в графе решений были, но на валидации показали себя хуже и выбраны не были.
— оптимизация операторов и поиска под задачу помогает гораздо сильнее, чем просто давать агенту бесконечное количество попыток / компьюта — качество базовых моделей все ещё неидеальное, поэтому в случае неограниченного количества попыток ваш субоптимальный агент все равно выйдет на плато.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33👍14❤7 3⚡2🫡2 2
🌸Стрим на Рабкоре: 20:00 мск🌸
Давно не выходила в эфир -- сегодня небольшой стрим про данные и что с ними происходит.
— ИИ-компании выиграли два очень крупных суда и по текущему решению использование данных из интернета это вполне себе fair use, разбираемся, почему
— Но есть нюанс: как это применять дальше? Разбираем DMCA, правильно первой покупки и добросовестное использование
— Антропик и Александрийская библиотека: в ходе суда над Антропиком выяснилось, что чтобы обойти копирайт, дешевле уничтожать печатные книги
— Вспоминаем Google books: новая роль архивов, библиотек и баз данных книг для открытых технологий
— заморозка регулирования ИИ на десять лет — происходит в США?
— что с делом Internet Archive?
Подключайтесь, как обычно, вопросы можно будет задавать на стриме или в комментариях под этим постом
🟣 Youtube: https://youtube.com/live/N-NOJ8NjDBs?feature=share
Давно не выходила в эфир -- сегодня небольшой стрим про данные и что с ними происходит.
— ИИ-компании выиграли два очень крупных суда и по текущему решению использование данных из интернета это вполне себе fair use, разбираемся, почему
— Но есть нюанс: как это применять дальше? Разбираем DMCA, правильно первой покупки и добросовестное использование
— Антропик и Александрийская библиотека: в ходе суда над Антропиком выяснилось, что чтобы обойти копирайт, дешевле уничтожать печатные книги
— Вспоминаем Google books: новая роль архивов, библиотек и баз данных книг для открытых технологий
— заморозка регулирования ИИ на десять лет — происходит в США?
— что с делом Internet Archive?
Подключайтесь, как обычно, вопросы можно будет задавать на стриме или в комментариях под этим постом
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Последние события в мире открытых данных и копирайта / Кали Новская
На сегодняшнем стриме с ведущей Кали Новской обсудим следующие темы:
— Meta** и Anthropic выиграли два суда и по текущему решению теперь использование пиратских данных это вполне себе fair use. Разбираемся - почему?
— Заморозка регулирования ИИ на десять…
— Meta** и Anthropic выиграли два суда и по текущему решению теперь использование пиратских данных это вполне себе fair use. Разбираемся - почему?
— Заморозка регулирования ИИ на десять…
7🔥43❤16👍10 4 3🥰2👏1
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Рабкор
🚩СТРИМ НА РАБКОРЕ
Сегодня в новом выпуске "КопиЛефт" вместе с Кали Новской будем говорить о таких темах как:
🔴Meta** и Anthropic выиграли два суда и по текущему решению теперь использование пиратских данных это вполне себе fair use. Разбираемся - почему?…
Сегодня в новом выпуске "КопиЛефт" вместе с Кали Новской будем говорить о таких темах как:
🔴Meta** и Anthropic выиграли два суда и по текущему решению теперь использование пиратских данных это вполне себе fair use. Разбираемся - почему?…
👍16🔥5 4
🌸Andrej Karpathy репостнул нашу статью про Nanogpt speedrun!
Обожаю этот проект: nanoGPT -> рекурсивный бенчмарк для самосовершенствования. Старый добрый nanoGPT продолжает радовать и удивлять :)
- Сначала я написал его как небольшой репозиторий, чтобы научить людей основам обучения GPT-шек.
- Затем он стал целью и базой для реимплементации C/CUDA в llm.c.
- Затем он был модифицирован (@kellerjordan0 и др.) в (небольшую) исследовательскую систему для LLM. Люди итеративно оптимизировали обучение, так что, например, воспроизведение производительности GPT-2 (124 МБ) занимает не 45 минут (как было изначально), а всего 3 минуты!
- Теперь идея заключается в том, чтобы использовать этот процесс оптимизации кода в качестве бенчмарка для агентов кодирования LLM. Если люди могут ускорить обучение LLM с 45 до 3 минут, насколько хорошо справятся с этим агенты LLM в различных условиях (например, с подсказками или без них и т. д.)?
И вам отличной пятницы!🥹
🟣 https://x.com/karpathy/status/1939709449956126910
Обожаю этот проект: nanoGPT -> рекурсивный бенчмарк для самосовершенствования. Старый добрый nanoGPT продолжает радовать и удивлять :)
- Сначала я написал его как небольшой репозиторий, чтобы научить людей основам обучения GPT-шек.
- Затем он стал целью и базой для реимплементации C/CUDA в llm.c.
- Затем он был модифицирован (@kellerjordan0 и др.) в (небольшую) исследовательскую систему для LLM. Люди итеративно оптимизировали обучение, так что, например, воспроизведение производительности GPT-2 (124 МБ) занимает не 45 минут (как было изначально), а всего 3 минуты!
- Теперь идея заключается в том, чтобы использовать этот процесс оптимизации кода в качестве бенчмарка для агентов кодирования LLM. Если люди могут ускорить обучение LLM с 45 до 3 минут, насколько хорошо справятся с этим агенты LLM в различных условиях (например, с подсказками или без них и т. д.)?
И вам отличной пятницы!
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤124👍31 19🔥18🥰2
Все в комментариях хотят мемотред, но что-то мало мемов накопилось, помогайте! #шитпост
🔥25😁15 7❤3