Kali Novskaya

Мемотред в честь пятницы и в честь того, что у меня появился Shrurby! (Первое фото) #шитпост

8.6K views09:50

🌸Deep Research Agents: обзор 🌸
#nlp #про_nlp #nlp_papers

Вышла неплохая обзорная статья про пересечение Deep Research и агентов — Deep Research Agents: A Systematic Examination And Roadmap.

Авторы определяют Deep Research агентов как AI-агенты на базе LLM, объединяющие динамически адаптивные рассуждения, способность к планированию, многошаговый внешний поиск и извлечение знаний и использование инструментов (tools, function calling), а также генерацию комплексных аналитических отчетов для информационно-исследовательских задач.

Приводится подробный анализ работ по теме
— Chain-of-thought, Reasoning
— Tool use, MCP
— Планирование в LLM
— GPRO, PPO, Reinforce++ и как их готовить

Отдельно способность к Deep Research сравнивают на примере бенчмарка GAIA (на нем оцениваются практически все работы).

Открытые вопросы и задачи, которые стоят перед исследователями в 2025:
— Расширение источников информации — когда информации хватит для отчета? Когда и где искать, когда ее недостаточно?
— Fact Checking и информация, меняющаяся во времени
— Асинхронность в выполнении задач и этапов плана у агентов
— Адекватная интеграция reasoning и вывода из внешних тулзов
— Мультиагентные архитектуры и автономное развитие систем с онлайн-RL

Нашу статью MLGym процитировали, опять же! 🥹

🟣

Статья

🟣

GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

7.2K views09:43

Kali Novskaya

🌸Вакансия: PhD по креативности LLM 🌸
#nlp #про_nlp

TL;DR
Открыта позиция PhD-студента в UMass Lowell у Анны Румшиски (Anna Rumshisky) в Text Machine Lab.

Детали:
Позиция PhD-студента с широким спектром тем в LLM: можно будет заниматься разными методами работы с языковыми моделями, от interpretability и prompt-инжиниринга до методов alignment'а, мультимодального тюнинга, low-rank training и PEFT. Основное направление — усиление креативности у LLM.

Глава лаборатории (Text Machine Lab): Prof. Anna Rumshisky, professor of computer science в UMass Lowell, MIT и Amazon AGI; в частности, один из соавторов Amazon Nova и первой статьи по бертологии.

Требования: релевантный бакалавриат + магистратура/специалитет, хорошее понимание линейной алгебры, мат анализа и теории вероятности, базовые знания deep learning и NLP. Публикации (включая воркшопы) приветствуются, но не являются обязательным требованием.

Позиция fully funded: обучение полностью покрывается, также выплачивается стипендия, достаточная для проживания в Массачусетсе.

🟣Для подписчиков этого канала: для подачи отправьте CV и короткое cover letter сюда: https://forms.gle/YYUhLcPtUNdjvJsY7
Дедлайн — 15 июля!

(От себя: чем раньше вы напишете, тем лучше. Я сама когда-то подавалась к Анне, но потом решила в США не ехать и осталась работать в Сбере. Для кавера можно сразу написать свои идеи, но лучше хорошо показать свой релевантный бэкграунд, опыт экспериментов, статьи)

🟣Сайт лаборатории https://text-machine.cs.uml.edu/lab2/
🟣Форма для подачи https://forms.gle/YYUhLcPtUNdjvJsY7

Please open Telegram to view this post

VIEW IN TELEGRAM

Google

Anna Rumshisky

UMass Lowell / Amazon AGI Foundations - Cited by 7,942 - Natural Language Processing - Artificial Intelligence - Deep Learning - Machine Learning

6.7K views10:13

Kali Novskaya

Чтобы все оставшиеся сотрудники успели пройти интервью к нам 😈
#шитпост

https://futurism.com/openai-shutting-down-week

Please open Telegram to view this post

VIEW IN TELEGRAM

Futurism

OpenAI Is Shutting Down for a Week

In a bid to retain its staffers amid a Meta poaching spree, OpenAI is giving them a mandatory week-long vacation.

5.5K views12:13

Kali Novskaya

🌸Спидраним NanoGPT агентами: новый бенчмарк🌸
#nlp #про_nlp #nlp_papers

На днях мы с коллегами опубликовали новую статью и бенчмарк для агентов, сделанный на основе NanoGPT speedrun от Карпаты:
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements

NanoGPT speedrun — это открытый репозиторий, где сообщество соревнуется в оптимизации обучения мини-GPT2 модели. Бейзлайн — llm.c от Карпаты, написанный в рамках туториала на чистой C/CUDA.

У спидрана Карпаты есть публичный лидерборд с историей рекордов, кратким описанием изменений и кодом (сейчас их 21).

Все это делает его идеальным исходником для оценки агентов: смогут ли они воспроизвести и улучшить результаты?

🌸Дизайн бенчмарка:

В бенчмарке две основные группы задач:
🟣воспроизводимость — агенту нужно воспроизвести рекорд R+1, когда рекорд R дается в качестве бейзлайна для итерирования, со всей информацией об основных нововведениях.
🟣оптимизация — агенту нужно улучшить бейзлайн R, но безо всяких подсказок. Основная метрика — нормализованное улучшение рантайма обучения в среднем по всем попыткам.

Scaffold агента ученого реализует цикл экспериментирования, состоящий из нескольких этапов:

Можно использовать агентов с любыми скаффолдами, но в рамках работы мы продемонстрировали результаты на нескольких SOTA-бейзлайнах, включая AIDE и multi-AIDE. У каждого скаффолда есть циклы решений, состояние из
1) Идеации: генерации новых идей для проверки гипотез (в нашем случае идеи предоставляются непосредственно из задачи).
2) Реализация эксперимента: кодирование экспериментов, которые проверяют идеи, полученные на этапе формирования идей.
3) Выполнение эксперимента: запуск кода
4) Анализ результатов: извлечение идей из результатов

🌸Основные итоги:

Мы провели большое количество аблейшенов с разными моделями, чтобы сравнить, как scaffold и разные типы подсказок могут повлиять на качество агента.

Лучше всего показывают себя скаффолд Multi-AIDE, полный набор подсказок из псевдокода и текстового саммари. В редких случаях, агент достигает 100% или даже 120% от существующего решения, но в большинстве случаев результат сильно ниже.

Все модели, включая топовые, со state-of-the-art scaffold, все равно испытывают трудности при воспроизведении результатов.

И даже больше, пока что существенная разница сохраняется, когда агентам дается максимально полная информация о том, что надо сделать, и псевдокод. Хорошее качество воспроизводимости — из статей, репозиториев, инструкций — должно быть пререквизитом на пути к надежной и воспроизводимой автоматизации науки агентами.

🟣Статья https://arxiv.org/abs/2506.22419
🟣Бенчмарк https://github.com/facebookresearch/llm-speedrunner

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

12.2K views10:38

Kali Novskaya

🌸SOTA на MLE-bench и новый скаффолд для ML агентов🌸
#nlp #про_nlp #nlp_papers

Выпустили статью, как мы с коллегами исследуем различные факторы у агентов в решении ML-задач: AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench

🌸TL;DR
У агентов столько вариаций, доступных тулзов, даже базовых LLM — как выбрать?
Выбирать комбинацию под задачу, в данном случае — решение ML соревнований.
Рецепт: DeepSeek, улучшенный нами AIDE с различными стратегиями поиска, оптимизированным набором операторов и тулзов — AIRA dojo (код в опенсорсе).

🌸Эксперименты

Базовая модель, скаффолд агента, набор доступных действий и тулзов и методы оценки — влияют на результат в разных комбинациях.
Оптимизировать метод поиска решения и набор действий агента под задачу — выигрышнее, чем просто тратить больше времени на поиск или тратить больше вычислительных мощностей.

Попутно сделали SOTA на MLE bench — бенчмарке OpenAI для агентов на основе Kaggle-задач. MLE bench состоит из 75 задач различной сложности, каждая в контейнере и с бейзлайном, и агентам необходимо, итерируя эксперименты, получить золото Kaggle.

Наше лучшее сочетание базовой модели, стратегии поиска и набора операторов достигает передового результата на MLE-bench lite, увеличивая вероятность получения медали на Kaggle с 39,6% до 47,7%.

Протестировали
🟣DeepSeek R1, O1, O3
🟣AIDE, несколько типов поиска по дереву — Greedy, MCTS, Evolutionary

🌸Краткие выводы

— мы сделали SOTA на ML-задачах без какого-либо изменения моделей, просто аккуратно написав фреймворк, который позволил проанализировать вклад в итоговое качество разных частей пайплайна, и тем самым вылечить некоторые явные боттлнеки в действиях агента и в поиске решений.
— у всех агентов все ещё наблюдается систематический оверфит: во время поиска решения агентами используется результат на валидации, а тестсет не доступен. При проверке оказывается, что лучшие, более общие решения в графе решений были, но на валидации показали себя хуже и выбраны не были.
— оптимизация операторов и поиска под задачу помогает гораздо сильнее, чем просто давать агенту бесконечное количество попыток / компьюта — качество базовых моделей все ещё неидеальное, поэтому в случае неограниченного количества попыток ваш субоптимальный агент все равно выйдет на плато.

🟣

Arxiv статья

🟣

GitHub скаффолд для ML агентов

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

3.1K views10:01

2025/07/07 21:53:16
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>