#mashkka_reading Подельник начинается в субботу📚
Перечитала любимую классику братьев Стругацких "Понедельник начинается в субботу" - книгу, которая с детства входит в мой топ.
Если вдруг кто-то не читал сей шедевр, кратко напомню сюжет, молодой программист Александр Привалов случайно попадает в загадочный НИИЧАВО (Научно-исследовательский институт Чародейства и Волшебства). Здесь он становится частью невероятного мира, где магия и наука переплетаются в одну странную, но удивительно логичную картину. В этом институте работают настоящие энтузиасты: они изучают бессмертие, воскрешают древних существ и даже пытаются понять, почему человеческие желания такие сложные.
В этой книге замечательно просто все: стремительный и непредсказуемый сюжет, вселенная НИИ, фактурные персонажи, но главное это непревзойденный юмор, по-доброму смеющийся над работой институтов и так точно пародирующий атмосферу в них. Так шутить умеют только братья Стругацкие, и больше никто!
✔️12-я книга за 2025
#mashkka_reading #книжнаяполка #книга #book
Перечитала любимую классику братьев Стругацких "Понедельник начинается в субботу" - книгу, которая с детства входит в мой топ.
Если вдруг кто-то не читал сей шедевр, кратко напомню сюжет, молодой программист Александр Привалов случайно попадает в загадочный НИИЧАВО (Научно-исследовательский институт Чародейства и Волшебства). Здесь он становится частью невероятного мира, где магия и наука переплетаются в одну странную, но удивительно логичную картину. В этом институте работают настоящие энтузиасты: они изучают бессмертие, воскрешают древних существ и даже пытаются понять, почему человеческие желания такие сложные.
В этой книге замечательно просто все: стремительный и непредсказуемый сюжет, вселенная НИИ, фактурные персонажи, но главное это непревзойденный юмор, по-доброму смеющийся над работой институтов и так точно пародирующий атмосферу в них. Так шутить умеют только братья Стругацкие, и больше никто!
✔️12-я книга за 2025
#mashkka_reading #книжнаяполка #книга #book
Forwarded from GigaChat
POLLUX: бенчмарк для оценки творческих способностей AI 🤖
Обычные бенчмарки типа MMLU — это ЕГЭ для нейросетей: выбери правильный ответ из списка. В реальном применении мы используем AI для написания текстов, генерации идей и переводов
POLLUX — первый экспертный бенчмарк для оценки генеративных способностей на русском от специалистов Сбера:
➡️ 2 100 уникальных заданий (написаны экспертами с нуля)
➡️ 152 типа задач — от художественных текстов до анализа кода
➡️ 66 критериев оценки
➡️ 471 тысяча экспертных оценок
➡️ обученные AI-судьи для автоматической оценки
Мы протестировали GPT-4o, Claude 3.5, LLaMA и другие. Оказалось, что даже топовые модели пока уступают людям в творчестве, а выбирать их нужно под конкретные задачи, а не по общему рейтингу
📌 Проект открытый — читаем про него тут
📌 Пробуем демо здесь
Обычные бенчмарки типа MMLU — это ЕГЭ для нейросетей: выбери правильный ответ из списка. В реальном применении мы используем AI для написания текстов, генерации идей и переводов
POLLUX — первый экспертный бенчмарк для оценки генеративных способностей на русском от специалистов Сбера:
Мы протестировали GPT-4o, Claude 3.5, LLaMA и другие. Оказалось, что даже топовые модели пока уступают людям в творчестве, а выбирать их нужно под конкретные задачи, а не по общему рейтингу
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya
🌸Deep Research Agents: обзор 🌸
#nlp #про_nlp #nlp_papers
Вышла неплохая обзорная статья про пересечение Deep Research и агентов — Deep Research Agents: A Systematic Examination And Roadmap.
Авторы определяют Deep Research агентов как AI-агенты на базе LLM, объединяющие динамически адаптивные рассуждения, способность к планированию, многошаговый внешний поиск и извлечение знаний и использование инструментов (tools, function calling), а также генерацию комплексных аналитических отчетов для информационно-исследовательских задач.
Приводится подробный анализ работ по теме
— Chain-of-thought, Reasoning
— Tool use, MCP
— Планирование в LLM
— GPRO, PPO, Reinforce++ и как их готовить
Отдельно способность к Deep Research сравнивают на примере бенчмарка GAIA (на нем оцениваются практически все работы).
Открытые вопросы и задачи, которые стоят перед исследователями в 2025:
— Расширение источников информации — когда информации хватит для отчета? Когда и где искать, когда ее недостаточно?
— Fact Checking и информация, меняющаяся во времени
— Асинхронность в выполнении задач и этапов плана у агентов
— Адекватная интеграция reasoning и вывода из внешних тулзов
— Мультиагентные архитектуры и автономное развитие систем с онлайн-RL
Нашу статью MLGym процитировали, опять же!🥹
🟣 Статья
🟣 GitHub
#nlp #про_nlp #nlp_papers
Вышла неплохая обзорная статья про пересечение Deep Research и агентов — Deep Research Agents: A Systematic Examination And Roadmap.
Авторы определяют Deep Research агентов как AI-агенты на базе LLM, объединяющие динамически адаптивные рассуждения, способность к планированию, многошаговый внешний поиск и извлечение знаний и использование инструментов (tools, function calling), а также генерацию комплексных аналитических отчетов для информационно-исследовательских задач.
Приводится подробный анализ работ по теме
— Chain-of-thought, Reasoning
— Tool use, MCP
— Планирование в LLM
— GPRO, PPO, Reinforce++ и как их готовить
Отдельно способность к Deep Research сравнивают на примере бенчмарка GAIA (на нем оцениваются практически все работы).
Открытые вопросы и задачи, которые стоят перед исследователями в 2025:
— Расширение источников информации — когда информации хватит для отчета? Когда и где искать, когда ее недостаточно?
— Fact Checking и информация, меняющаяся во времени
— Асинхронность в выполнении задач и этапов плана у агентов
— Адекватная интеграция reasoning и вывода из внешних тулзов
— Мультиагентные архитектуры и автономное развитие систем с онлайн-RL
Нашу статью MLGym процитировали, опять же!
Please open Telegram to view this post
VIEW IN TELEGRAM
#пятничныемемасы
Шла пятница и был дедлайн на System Demo EMNLP. Они держались как могли
Шла пятница и был дедлайн на System Demo EMNLP. Они держались как могли
🎓МарьИванна идет на выпускной ФКН
На этой неделе был отличный повод выбраться в ВШЭ - пришла поздравить своих магистров-выпускников на выпускной ФКН. Вела у них занятия, связанные с Data Science, а в этот день пришла сказать им напутсвенные слова и искренне порадоваться за них.
Единственная очная встреча выпускников онлайн-программ, и повод для этого прекрасен как никогда. Эти ребята могут по праву гордиться собой: cтать магистром одного из лучших факультетов страны по Data Science - невероятное достижение. И это на 200% их заслуга и результат их упорного труда. А я горжусь своими замечательными краснодипломницами: @juliawolkenstein и @planqua. Таких талантливых и целеустремленных студенток, как они сложно найти!
👏Поаплодируйте им, выпускникам ФКН и всем, кто в этом году окончил тот или иной вуз! Это важный этап в жизни каждого!
#вшэ #фкн #graduate #выпускник #hse
На этой неделе был отличный повод выбраться в ВШЭ - пришла поздравить своих магистров-выпускников на выпускной ФКН. Вела у них занятия, связанные с Data Science, а в этот день пришла сказать им напутсвенные слова и искренне порадоваться за них.
Единственная очная встреча выпускников онлайн-программ, и повод для этого прекрасен как никогда. Эти ребята могут по праву гордиться собой: cтать магистром одного из лучших факультетов страны по Data Science - невероятное достижение. И это на 200% их заслуга и результат их упорного труда. А я горжусь своими замечательными краснодипломницами: @juliawolkenstein и @planqua. Таких талантливых и целеустремленных студенток, как они сложно найти!
👏Поаплодируйте им, выпускникам ФКН и всем, кто в этом году окончил тот или иной вуз! Это важный этап в жизни каждого!
#вшэ #фкн #graduate #выпускник #hse
🐾По следам вебинара Как правильно готовить данные для ML-моделей?
На вебинаре в OTUS разобрали основные этапы разведочного анализа данных и то, как правильно "готовить данные" в Python для моделей машинного обучения.
- Что делать с пропусками?
- Как быть с выбросами?
- Зачем смотреть корреляции?
Это и многое другое обсуждаем и применяем в на практике.
👀Запись
✍ Слайды
💻Практика
@mashkka_ds
#открытыйурок
На вебинаре в OTUS разобрали основные этапы разведочного анализа данных и то, как правильно "готовить данные" в Python для моделей машинного обучения.
- Что делать с пропусками?
- Как быть с выбросами?
- Зачем смотреть корреляции?
Это и многое другое обсуждаем и применяем в на практике.
👀Запись
💻Практика
@mashkka_ds
#открытыйурок
Please open Telegram to view this post
VIEW IN TELEGRAM
#justaboutme Summertime = partytime
Лето - время время свадеб, вечеринок и ярких костюмов. А яркий лук это мы завсегдассс =)
❕ #justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.
Лето - время время свадеб, вечеринок и ярких костюмов. А яркий лук это мы завсегдассс =)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya
🌸SOTA на MLE-bench и новый скаффолд для ML агентов🌸
#nlp #про_nlp #nlp_papers
Выпустили статью, как мы с коллегами исследуем различные факторы у агентов в решении ML-задач: AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench
🌸TL;DR
У агентов столько вариаций, доступных тулзов, даже базовых LLM — как выбрать?
Выбирать комбинацию под задачу, в данном случае — решение ML соревнований.
Рецепт: DeepSeek, улучшенный нами AIDE с различными стратегиями поиска, оптимизированным набором операторов и тулзов — AIRA dojo (код в опенсорсе).
🌸Эксперименты
Базовая модель, скаффолд агента, набор доступных действий и тулзов и методы оценки — влияют на результат в разных комбинациях.
Оптимизировать метод поиска решения и набор действий агента под задачу — выигрышнее, чем просто тратить больше времени на поиск или тратить больше вычислительных мощностей.
Попутно сделали SOTA на MLE bench — бенчмарке OpenAI для агентов на основе Kaggle-задач. MLE bench состоит из 75 задач различной сложности, каждая в контейнере и с бейзлайном, и агентам необходимо, итерируя эксперименты, получить золото Kaggle.
Наше лучшее сочетание базовой модели, стратегии поиска и набора операторов достигает передового результата на MLE-bench lite, увеличивая вероятность получения медали на Kaggle с 39,6% до 47,7%.
Протестировали
🟣 DeepSeek R1, O1, O3
🟣 AIDE, несколько типов поиска по дереву — Greedy, MCTS, Evolutionary
🌸Краткие выводы
— мы сделали SOTA на ML-задачах без какого-либо изменения моделей, просто аккуратно написав фреймворк, который позволил проанализировать вклад в итоговое качество разных частей пайплайна, и тем самым вылечить некоторые явные боттлнеки в действиях агента и в поиске решений.
— у всех агентов все ещё наблюдается систематический оверфит: во время поиска решения агентами используется результат на валидации, а тестсет не доступен. При проверке оказывается, что лучшие, более общие решения в графе решений были, но на валидации показали себя хуже и выбраны не были.
— оптимизация операторов и поиска под задачу помогает гораздо сильнее, чем просто давать агенту бесконечное количество попыток / компьюта — качество базовых моделей все ещё неидеальное, поэтому в случае неограниченного количества попыток ваш субоптимальный агент все равно выйдет на плато.
🟣 Arxiv статья
🟣 GitHub скаффолд для ML агентов
#nlp #про_nlp #nlp_papers
Выпустили статью, как мы с коллегами исследуем различные факторы у агентов в решении ML-задач: AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench
🌸TL;DR
У агентов столько вариаций, доступных тулзов, даже базовых LLM — как выбрать?
Выбирать комбинацию под задачу, в данном случае — решение ML соревнований.
Рецепт: DeepSeek, улучшенный нами AIDE с различными стратегиями поиска, оптимизированным набором операторов и тулзов — AIRA dojo (код в опенсорсе).
🌸Эксперименты
Базовая модель, скаффолд агента, набор доступных действий и тулзов и методы оценки — влияют на результат в разных комбинациях.
Оптимизировать метод поиска решения и набор действий агента под задачу — выигрышнее, чем просто тратить больше времени на поиск или тратить больше вычислительных мощностей.
Попутно сделали SOTA на MLE bench — бенчмарке OpenAI для агентов на основе Kaggle-задач. MLE bench состоит из 75 задач различной сложности, каждая в контейнере и с бейзлайном, и агентам необходимо, итерируя эксперименты, получить золото Kaggle.
Наше лучшее сочетание базовой модели, стратегии поиска и набора операторов достигает передового результата на MLE-bench lite, увеличивая вероятность получения медали на Kaggle с 39,6% до 47,7%.
Протестировали
🌸Краткие выводы
— мы сделали SOTA на ML-задачах без какого-либо изменения моделей, просто аккуратно написав фреймворк, который позволил проанализировать вклад в итоговое качество разных частей пайплайна, и тем самым вылечить некоторые явные боттлнеки в действиях агента и в поиске решений.
— у всех агентов все ещё наблюдается систематический оверфит: во время поиска решения агентами используется результат на валидации, а тестсет не доступен. При проверке оказывается, что лучшие, более общие решения в графе решений были, но на валидации показали себя хуже и выбраны не были.
— оптимизация операторов и поиска под задачу помогает гораздо сильнее, чем просто давать агенту бесконечное количество попыток / компьюта — качество базовых моделей все ещё неидеальное, поэтому в случае неограниченного количества попыток ваш субоптимальный агент все равно выйдет на плато.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM