Борис опять 3035 - Telegram Web

Борис опять

Forwarded from Love. Death. Transformers.

Better & Faster Large Language Models via Multi-token Prediction

Вероятно самая недооценная работа последнего года.

В чем идея: у нас самая замедляющая инференс часть это decoding. Есть спекулятивный когда мы можем предсказывать вероятности маленькой моделью и подключать большую только если маленькая не уверена. Работает это средне и очень не стабильно.

Авторы предлагают следущее: давайте сделаем многоголовый трансформер, который будет предсказывать N токенов за раз!
Авторы предлагают учить такие головы последовательно на одних и тех же данных(в целях экономии памяти) и заводят это как большой post training(200b токенов поверх llama2)

Cобственно благодаря тому что трансформер предсказывает сразу x3 токенов мы получаем скорость инференса x3 бесплатно, да еще и прирост на бенчмарках!

paper
offical model

👍34❤11

6.39K views13:05

Борис опять

Яндекс разработал и выложил в открытый доступ распределённый непрерывный профилировщик Perforator.

https://habr.com/ru/companies/yandex/articles/875070/

Контент про оптимизацию программ для меня необычный. Слова страшные, звучит сложно и приходится больше думать, привычно для ML-щика. Но я стараюсь иногда заглядывать в другие области, а ребята написали очень понятную статью на Хабр, за что им спасибо.

Насколько я понимаю, авторы системы хотели получить более сильный аналог perf record из-за ряда его недостатков, чтобы работало непрерывно и на большом масштабе. К тому же сделали упор на автоматическую оптимизацию программ, что вообще какая-то магия если честно.

Я сделал такие выводы: получился опенсорс инструмент с небольшим оверхедом, то есть практически не влияет на производительность программы, которую вы анализируете, поддерживает Go, C++ и Rust, пока что не поддерживает Python, дает читабельные профили и визуализации flamegraph, не надо волноваться о том насколько репрезентативны профили, можно быстро искать нужную информацию благодаря метаданным в Clickhouse.

Perforator: новая система непрерывного профилирования теперь в опенсорсе

Привет! Сегодня мы выложили в опенсорс Perforator — систему непрерывного профилирования (continuous profiling), которую используем внутри Яндекса для анализа производительности...

🔥3410👍3

7.46K viewsedited 12:57

Борис опять

Forwarded from AI Safety. Основы

📣 Open-call: Курс по основам AI Safety

ИИ меняет мир с безумной скоростью, но вместе с этим несет в себе серьезные риски. Задача AI Safety – позаботиться, чтобы эти изменения были положительными

Цель курса – дать базу для начала карьеры в AI Safety. Программа знакомит с основными концепциями, ландшафтом исследований и работами Anthropic, Redwood Research, MIRI

📖

Программа из двух треков:
➕Учебный (4 недели): Знакомство с материалами в фасилитируемых группах
➕Проектный (7 недель): Работа с ментором нацеленная на публикацию

👥

Для кого?
➕Будущие рисечеры: ml'щики, физики, математики, программисты
➕Будущие фаундреры: предприниматели интересующиеся AI Safety

🎓

Сертификат по окончанию курса
👏 Карьерная консультация и менторское сопровождение для лучших студентов

🔫

Экспертиза менторов включает: evals, agent foundations, adversarial attacks, representation engineering, safety field building, mechanistic interpetability

💼 Этим курсом мы готовим людей себе в команды и в команды наших друзей по сейфти. Поэтому курс бесплатный. По этой же причине мы серьезно подходим к отбору кандидатов

🔢 Детали:
➕Очно в Москве или онлайн
➕Регистрация открыта до 21 февраля
➕Даты: 2 марта – 20 апреля
➕Нагрузка: 10-15 часов в неделю

💬 По вопросам пишите @anton_zheltoukhov

➡️

➡️

Зарегистрироваться

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16❤64👎1

7.44K views13:28

Борис опять

Forwarded from Kirill

202🤔1

9.28K views11:51

Борис опять

Forwarded from Al Talent Hub

👉

Скорее всего, ты читаешь его в Tg: регистрируйся на новый Open Talks с @boris_again

🐱

Уже 19 февраля в 19:00

Обсудим:
– Как стать ML-инженером в eBay?
– Модели мира у нейросетей
– Почему ML – это просто?

➡️

Эксперт: Борис Цейтлин
Staff ML Engineer в eBay
Автор Telegram-канала «Борис опять»

➡️

Ведущий: Роман Одобеску
Талант 2 курса AI Talent Hub
Middle ML Engineer

😾

Не увидел важного вопроса в анонсе?

➡️

Регистрируйся и задай свой вопрос!

Уже был на Open Talks? Приходи на Бориса опять

😉

#OpenTalks
#AITalentHub #ITMO #NapoleonIT

Please open Telegram to view this post

VIEW IN TELEGRAM

👍27🔥10❤9

7.51K views12:26

Борис опять

Хочу завести попугая и научить его говорить "pvalue" и "критерий Стьюдента"

Это будет статистический попугай

157👎8❤4🔥2

7.87K views14:42

Борис опять

Небольшое превью того, что там происходит в книге Бориса (Борис мучает главу про теорвер)

5❤105👍21🔥1514

8.54K views12:01

Борис опять

https://arxiv.org/abs/2502.12115

SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World...

We introduce SWE-Lancer, a benchmark of over 1,400 freelance software engineering tasks from Upwork, valued at \$1 million USD total in real-world payouts. SWE-Lancer encompasses both independent...

27❤2👍1

6.82K views08:40

Борис опять

Forwarded from неуютный фкнчик

Media is too big

VIEW IN TELEGRAM

#моп_поймет
Отклик сюда: https://forms.gle/z45WwdBTRHrd8inM9

29🔥6

5.43K views12:52

Борис опять

Forwarded from Al Talent Hub

This media is not supported in your browser

VIEW IN TELEGRAM

🚨 Перенос Open Talks с Борисом Цейтлиным

Друзья, митап откладывается по состоянию здоровья гостя. Бережём Бориса и желаем ему скорейшего восстановления 🙏

Новая дата: 28 февраля 19:00 мск

Все ваши вопросы, отправленные через форму регистрации мы обязательно зададим 28.02. Напоминание о новой дате придёт на почту, указанную при регистрации. Мы также напомним вам о встрече в канале!

Спасибо за понимание и увидимся на Open Talks ❤️

😢4110👍7❤5

6.23K views15:55

📅 Добавить в Google-календарь

📅 Добавить в iCal

Борис опять

Forwarded from Kali Novskaya

🌸Акселерация науки — вперед!🌸
#nlp #про_nlp #nlp_papers

Молчать про это невозможно — про автоматизацию и акселерацию науки с помощью ИИ-моделей. На этой неделе происходит сразу несколько интересных релизов:

🟣

OpenAI выпустил SWElancer: новый бенчмарк для агентов в привязке к реальным заданиям с биржи фриланса (100 млрд сами себя не заработают). OpenAI продолжает работу по привязыванию оценки работы ИИ к монетарной ценности — в задачах вроде как и сложных, но все-таки не научных, а скорее экономически выгодных.

🟣

Google выпустил Co-Scientist: ассистента для ученых на основе последней модели Gemini в применении к 3 биомедицинским задачам: поиск новых применений уже известных препаратов, предложение новых терапевтических подходов к лечению и выяснение механизмов, лежащих в основе устойчивости к противомикробным препаратам.

Как говорится, две большие разницы. Подход Google больше похож на мои тезисы из "как делать AGI аккуратно": методы машинного обучения уже давно проникли в различные научные области, автоматизируя отдельные части процесса. Уже нашлись приложения в таких науках, как физика, биология, химия, лингвистика, экономика, геологическое моделирование, эпидемиологическое моделирование, нейронауки.
ИИ легко применим в любой области науки, где имеется 2 необходимых условия для автоматизации: формальные модели и симуляции.

Вполне логично, что агенты могут успешно автоматизировать генерацию тем, и даже эксперименты, но не могут пока что полноценно генерировать научную новизну.
И если добавить в эту цепочку самого исследователя — то проблему автоматической валидации новизны можно и вовсе обойти!

Но это еще даже не все:
🟣Stanford/Harvard выпустили Popper — агента для автоматического фальсифицирования гипотез в биологии, экономике, социологии. Составные части научной акселерации скоро будут собраны почти все.

Судя по скорости, до конца этой недели.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥40❤5👍3🤔1

5.34K views21:50

Борис опять

Forwarded from Kali Novskaya

🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸
#nlp #про_nlp #nlp_papers

Сегодня, под конец этой насыщенной недели, мы с коллегами выпускаем новую работу "MLGym: A New Framework and Benchmark for Advancing AI Research Agents".

🟣TL;DR
MLGym – это фреймворк для оценки и развития LLM-агентов.
В нем пока 15 различных ML задач, включая хорошо и не очень определенные: задачи на NLP, CV, RL, теорию игр.
Агенты должны продемонстрировать свою способность понять задачу, запустить бейзлайн, оцени его, и начать итерировать эксперименты и улучшать результат, находясь при этом в заданной среде. В среде есть набор инструментов, которые можно использовать: поиск по файловой системе, поиск по файлам, модуль памяти, просмотр и изменение файлов, и собственно действия запуска скрипта оценки и сабмита решения.
Каждая задача содержит датасет, метрику, бейзлайн, а также свою собственную среду, где есть контролируемые ограничения на вычислительный бюджет и таймауты.

Мы предлагаем иерархическую структуру из 6 уровней для оценки степени автономии и научного вклада агентов:
Уровень 0: воспроизведение – аккуратно повторить чужие эксперименты без ошибок
Уровень 1: Итеративное улучшение бейзлайна – применение лучших практик, перебор гипертапаметров
Уровень 2: Достижение SOTA через итерации от бейзлайна – решение лучше тех, что смогли найти люди
Уровень 3: Новый научный вклад – можно быть принятым на условный NeurIPS
Уровень 4: Научное новаторство, фундаментальный научный вклад – можно получить "лучшую статью" на том же NeurIPS
Уровень 5: Долгосрочная исследовательская программа – test of time awards, научная революция, премия Тьюринга.

🟣Что мы выяснили?
Текущие ИИ системы находятся почти поголовно на уровне 1.

Удобно оценивать все системы относительно дельты, которую они смогли достичь, опираясь на бейзлайн, за заданное количество итераций (за первые 5 шагов у системы Х получили +15% точности, а у системы Y +20%). Если оценивать LLM-агенты так, то увидим, что O1-preview вырывается вперед практически на всех задачах. GPT-4o и LLama 3.1 405B примерно на одном уровне, Claude и Gemini делят обычно 2 и 3 место. Ну а если помимо дельты оценивать еще и стоимость инференса модели, но картина меняется, и лучше по соотношению оказывается Gemini с большим отрывом.

Достаточно интересно посмотреть распределение действий агентов и их ошибок:
— большинство LLM-агентов делают ошибки и из-за этого не доходят до сабмита, тогда как O1 и Gemini гораздо чаще просто не доделывают сабмит до конца.
— все агенты большую часть действий тратят на изменение файлов: редактирование скриптов обучения, а также чтение файлов, запуск обучения и валидацию — соотношение действий примерно у всех одинаковое, хотя некоторым система действий требуется меньше.
— почти все агенты очень мало используют поиск, хотя могли бы.
— минимальное число итераций до первого сабмита — примерно 5. Все системы начинают с чтения файлов, затем запускают валидацию, и дальше планомерно итерируются, изменяя скрипты и запуская обучение.

🟣Что еще есть полезного?
— Классный Web UI визуализатор агентных логов на streamlit
— Есть набор полезных функций и tools, полностью совместимый с SWE-Agent.
— Есть модуль памяти, модуль поиска научной литературы, и еще много разных ништяков, которые можно использовать отдельно от бенчмарка, просто развивая своего агента (свой агент? Это же неодушевленное...).
— Есть большой обзор литературы, охватывающий почти все последние работы в области агентов для SWE, ML, науки, который угадайте кто писал.

Линейку задач можно легко расширять — поэтому мы будем рады идеям и контрибьюшенам, а также любой активности в репозитории.

🟣Arxiv: https://arxiv.org/abs/2502.14499

🟣

Github: https://github.com/facebookresearch/MLGym
🟣Лицензия: CC-BY-NC 4.0

Please open Telegram to view this post

VIEW IN TELEGRAM

MLGym: A New Framework and Benchmark for Advancing AI Research Agents

We introduce Meta MLGym and MLGym-Bench, a new framework and benchmark for evaluating and developing LLM agents on AI research tasks. This is the first Gym environment for machine learning (ML)...

🔥16👍4👎3

4.22K views11:25

Борис опять

Forwarded from Neural Info

Ребята из Google DeepMind выложили SigLIP2, надо обязательно будет глянуть, с учетом того, что первая версия была достаточно успешной.

Из интересного на что сразу упал взгляд:
1. Две версии моделей: обработка изображений фиксированного / динамического разрешений.
2. Мультиязычность.

Статья
HuggingFace

#paper

SigLIP 2: Multilingual Vision-Language Encoders with Improved...

We introduce SigLIP 2, a family of new multilingual vision-language encoders that build on the success of the original SigLIP. In this second iteration, we extend the original image-text training...

❤13🤔2

6.32K views19:30

Борис опять

В общем, коротко: SigLIP 2 это лучший на текущий момент CLIP.

К нему приделали все идеи из разных self-supervised методов современного CV и получилось хорошо:
1. Self-distillation при обучении как в DINO/DINOv2. Модель-ученик видит только локальный кроп изображения, модель-учитель (ema от обучаемой модели) глобальный кроп. Так что модель учится по деталям получать те же репрезентации, что и по всей картинке. Это, например, заставляет модель видя нос собаки мысленно "достраивать" всю собаку.
2. Маскировка патчей, что ставит некоторую задачу реконструкции, как в MAE (который Masked Autoencoders от FAIR).
3. Декодер. Прямо при обучении заставляют модель генерировать подписи, ббоксы и подписи к ббоксам. Это, по идее, самое важное: напрямую учат модель связывать детали изображений и текст.

Все это должно полечить вечную проблему клипов, что они хорошо понимают на уровне изображения и плохо понимают детали. Таким образом прошло долгожданное объединение contrastive learning и self supervised подходов.

Ещё подвезли версию устойчивую к разным разрешениям и размерам изображений, а так же мультиязычность.

Это конечно Франкенштейн с несколькими лоссами и стадиями тренировки, так что bitter lesson еще придет, но все равно круто.

Короче если нужны какие-то эмбеддинги изображений и текстов берем с полки SigLIP2.

Так же ждем прокачанные энкодеры изображений во всех VLM.

12👍43❤13🔥9

8.6K viewsedited 13:38

Борис опять

https://www.anthropic.com/news/claude-3-7-sonnet

Anthropic наконец-то выпустили свою reasoning модель! Вышел Sonnet 3.7

Что приятно: цены не поднялись.

Помимо этого так же анонсировали агент Claude Code. Учитывая, что Sonnet 3.5 так долго оставался для всех главной моделью для разработки несмотря на выход множества новых моделей, думаю у Anthropic хорошие шансы сделать их наконец-то правда полезными. Однако пока что research preview, поиграться нельзя.

❤21👍6🔥1

14.2K viewsedited 18:36

Борис опять

Forwarded from epsilon correct

Claude Code

Вчера Antropic представили обновлённую модельку Sonnet 3.7 и вместе с ней локального агента Claude Code. Вместе с обновлением, которое значительно подняло метрики по выполнению кода, получилась пушка для как минимум хобби-разработчиков.

Агент работает по API, час работы выходит примерно 10-20$. Агент работает на локальной машине через свой терминал, запуская команды на локальной машине. За полтора часа работы у меня получилось "написать" ~5k строк C++ кода для системы быстрого построения графов при помощи locality-sensitive hashing проекций. Ничего сложного, но время разработки существенно скоратилось, а скаффолдинг можно и поправить.

За весь час я вообще не редактировал код, а давал только общие указания (напиши бенчмарк, напиши тесты). В результате получилась система, которая вроде бы даже работет – агент сам старается всё тестировать и себя проверять. В результате получилось написать то, на что у меня бы ушло недели две работы, да ещё и C++ вышел довольно читаемым.

Будущее, получается, уже совсем рядом – нужно только отстёгивать $20/час за такое удовольствие.

🔥3812👍3❤1

4.12K views12:37

Борис опять

27 февраля в 19:00 ребята из Школы Высшей Математики, которые недавно запускали курс по LLM, проводят вебинар: "Применение ИИ в e-commerce"

Моя тема!

Спикеры:
🔹Артем Бочкарев – Head of Data Science в AliExpress
🔹Александр Лыков – кандидат физико-математических наук, академический руководитель Школы Высшей Математики и ShadHelper.

Что будет:
➖ Сценарии применения ИИ в разрезе типов моделей, трудозатрат и пользы для бизнеса.
➖ LLM - где применяется, где планируется и где не взлетело.
➖ Проблемы до которых пока не дотянулись, но есть потенциал.

Записываться здесь

🔥9❤3👎3

5.63K views17:05

Борис опять

https://www.ben-evans.com/benedictevans/2025/2/17/the-deep-research-problem

The Deep Research problem — Benedict Evans

OpenAI’s Deep Research is built for me, and I can’t use it. It’s another amazing demo, until it breaks. But it breaks in really interesting ways.

❤16👍9👎32🔥1🤔1

5.57K views18:47

Борис опять

CoT Claude 3.7 🙄

https://x.com/lefthanddraft/status/1894392127066706128/photo/1

Please open Telegram to view this post

VIEW IN TELEGRAM

36🤔13❤2

5.87K views11:22

2025/07/13 04:33:43
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>