Telegram Web
#mashkka_reading Подельник начинается в субботу📚

Перечитала любимую классику братьев Стругацких "Понедельник начинается в субботу" - книгу, которая с детства входит в мой топ.

Если вдруг кто-то не читал сей шедевр, кратко напомню сюжет, молодой программист Александр Привалов случайно попадает в загадочный НИИЧАВО (Научно-исследовательский институт Чародейства и Волшебства). Здесь он становится частью невероятного мира, где магия и наука переплетаются в одну странную, но удивительно логичную картину. В этом институте работают настоящие энтузиасты: они изучают бессмертие, воскрешают древних существ и даже пытаются понять, почему человеческие желания такие сложные.

В этой книге замечательно просто все: стремительный и непредсказуемый сюжет, вселенная НИИ, фактурные персонажи, но главное это непревзойденный юмор, по-доброму смеющийся над работой институтов и так точно пародирующий атмосферу в них. Так шутить умеют только братья Стругацкие, и больше никто!

✔️12-я книга за 2025

#mashkka_reading #книжнаяполка #книга #book
Forwarded from GigaChat
POLLUX: бенчмарк для оценки творческих способностей AI 🤖

Обычные бенчмарки типа MMLU — это ЕГЭ для нейросетей: выбери правильный ответ из списка. В реальном применении мы используем AI для написания текстов, генерации идей и переводов

POLLUX — первый экспертный бенчмарк для оценки генеративных способностей на русском от специалистов Сбера:

➡️2 100 уникальных заданий (написаны экспертами с нуля)
➡️152 типа задач — от художественных текстов до анализа кода
➡️66 критериев оценки
➡️471 тысяча экспертных оценок
➡️обученные AI-судьи для автоматической оценки

Мы протестировали GPT-4o, Claude 3.5, LLaMA и другие. Оказалось, что даже топовые модели пока уступают людям в творчестве, а выбирать их нужно под конкретные задачи, а не по общему рейтингу

📌Проект открытый — читаем про него тут
📌Пробуем демо здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya
🌸Deep Research Agents: обзор 🌸
#nlp #про_nlp #nlp_papers

Вышла неплохая обзорная статья про пересечение Deep Research и агентов — Deep Research Agents: A Systematic Examination And Roadmap.

Авторы определяют Deep Research агентов как AI-агенты на базе LLM, объединяющие динамически адаптивные рассуждения, способность к планированию, многошаговый внешний поиск и извлечение знаний и использование инструментов (tools, function calling), а также генерацию комплексных аналитических отчетов для информационно-исследовательских задач.

Приводится подробный анализ работ по теме
— Chain-of-thought, Reasoning
— Tool use, MCP
— Планирование в LLM
— GPRO, PPO, Reinforce++ и как их готовить

Отдельно способность к Deep Research сравнивают на примере бенчмарка GAIA (на нем оцениваются практически все работы).

Открытые вопросы и задачи, которые стоят перед исследователями в 2025:
— Расширение источников информации — когда информации хватит для отчета? Когда и где искать, когда ее недостаточно?
— Fact Checking и информация, меняющаяся во времени
— Асинхронность в выполнении задач и этапов плана у агентов
— Адекватная интеграция reasoning и вывода из внешних тулзов
— Мультиагентные архитектуры и автономное развитие систем с онлайн-RL


Нашу статью MLGym процитировали, опять же! 🥹

🟣Статья
🟣GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
#пятничныемемасы
Шла пятница и был дедлайн на System Demo EMNLP. Они держались как могли
🎓МарьИванна идет на выпускной ФКН

На этой неделе был отличный повод выбраться в ВШЭ - пришла поздравить своих магистров-выпускников на выпускной ФКН. Вела у них занятия, связанные с Data Science, а в этот день пришла сказать им напутсвенные слова и искренне порадоваться за них.

Единственная очная встреча выпускников онлайн-программ, и повод для этого прекрасен как никогда. Эти ребята могут по праву гордиться собой: cтать магистром одного из лучших факультетов страны по Data Science - невероятное достижение. И это на 200% их заслуга и результат их упорного труда. А я горжусь своими замечательными краснодипломницами: @juliawolkenstein и @planqua. Таких талантливых и целеустремленных студенток, как они сложно найти!

👏Поаплодируйте им, выпускникам ФКН и всем, кто в этом году окончил тот или иной вуз! Это важный этап в жизни каждого!

#вшэ #фкн #graduate #выпускник #hse
🐾По следам вебинара Как правильно готовить данные для ML-моделей?

На вебинаре в OTUS разобрали основные этапы разведочного анализа данных и то, как правильно "готовить данные" в Python для моделей машинного обучения.
- Что делать с пропусками?
- Как быть с выбросами?
- Зачем смотреть корреляции?

Это и многое другое обсуждаем и применяем в на практике.

👀Запись
Слайды
💻Практика

@mashkka_ds

#открытыйурок
Please open Telegram to view this post
VIEW IN TELEGRAM
#justaboutme Summertime = partytime

Лето - время время свадеб, вечеринок и ярких костюмов. А яркий лук это мы завсегдассс =)

#justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya
🌸SOTA на MLE-bench и новый скаффолд для ML агентов🌸
#nlp #про_nlp #nlp_papers

Выпустили статью, как мы с коллегами исследуем различные факторы у агентов в решении ML-задач: AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench

🌸TL;DR
У агентов столько вариаций, доступных тулзов, даже базовых LLM — как выбрать?
Выбирать комбинацию под задачу, в данном случае — решение ML соревнований.
Рецепт: DeepSeek, улучшенный нами AIDE с различными стратегиями поиска, оптимизированным набором операторов и тулзов — AIRA dojo (код в опенсорсе).

🌸Эксперименты

Базовая модель, скаффолд агента, набор доступных действий и тулзов и методы оценки — влияют на результат в разных комбинациях.
Оптимизировать метод поиска решения и набор действий агента под задачу — выигрышнее, чем просто тратить больше времени на поиск или тратить больше вычислительных мощностей.

Попутно сделали SOTA на MLE bench — бенчмарке OpenAI для агентов на основе Kaggle-задач. MLE bench состоит из 75 задач различной сложности, каждая в контейнере и с бейзлайном, и агентам необходимо, итерируя эксперименты, получить золото Kaggle.

Наше лучшее сочетание базовой модели, стратегии поиска и набора операторов достигает передового результата на MLE-bench lite, увеличивая вероятность получения медали на Kaggle с 39,6% до 47,7%.

Протестировали
🟣DeepSeek R1, O1, O3
🟣AIDE, несколько типов поиска по дереву — Greedy, MCTS, Evolutionary

🌸Краткие выводы

— мы сделали SOTA на ML-задачах без какого-либо изменения моделей, просто аккуратно написав фреймворк, который позволил проанализировать вклад в итоговое качество разных частей пайплайна, и тем самым вылечить некоторые явные боттлнеки в действиях агента и в поиске решений.
— у всех агентов все ещё наблюдается систематический оверфит: во время поиска решения агентами используется результат на валидации, а тестсет не доступен. При проверке оказывается, что лучшие, более общие решения в графе решений были, но на валидации показали себя хуже и выбраны не были.
— оптимизация операторов и поиска под задачу помогает гораздо сильнее, чем просто давать агенту бесконечное количество попыток / компьюта — качество базовых моделей все ещё неидеальное, поэтому в случае неограниченного количества попыток ваш субоптимальный агент все равно выйдет на плато.

🟣Arxiv статья
🟣GitHub скаффолд для ML агентов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/07/08 12:09:13
Back to Top
HTML Embed Code: