Telegram Web
o3 и o3-mini - разрыв бенчмарков

Это ещё не AGI, но точно SOTA на всём что только можно. Стоимость тоже гигантская - на решение одного единственного таска могут уйти тысячи долларов.

🎓 SOTA результаты по Frontier Math выросли с 2% до 25%.

💻 На SWE-Bench модель набрала 71,7%. Чтобы вы понимали, в этом году стартап смог поднять 200 миллионов долларов с результатами 13,86%.

👨‍💻 ELO на Codeforces - 2727, в мире всего у 150 человек больше ELO.

🔥На ARC-AGI модель набрала 87,5%, бенчмарк пять лет не могли покорить. Авторы уже партнёрятся с OpenAI чтобы создать вторую версию бенча.

👨‍🎓 На GPQA и AIME тоже очень хороший прогресс.

Сегодня дают доступ ресёрчерам безопасности к o3-mini, простым смертным доступ к o3-mini дадут в конце января, к o3 чуть позже.

@ai_newz
Прогнать o3 на ARC-AGI стоит до полутора миллиона долларов

OpenAI запретили публиковать такие цены напрямую, но high-compute режим использует в 172 раза больше вычислений чем low-compute режим, цену которого мы уже знаем (8689 долларов).

@ai_newz
А вот и несколько задачек из ARC-AGI, на которых валится o3, даже в high-compute режиме (где на одну задачу уходят десятки миллионов токенов, стоимостью в несколько тысяч долларов).

Самим порешать эти головоломки можно здесь. Задачи со скринов: 1, 2, 3. За сколько времени у вас их выйдет решить?

@ai_newz
Нейродайджест за неделю (#49)

OpenAI
- Анлим Sora — теперь даже базовым подписчикам доступна безлимитная генерация видео в "медленной очереди", но лишь на праздники. Нужен не европейский VPN.
- Search GPT — минорный апдейт поиска от все тех же OpenAI (со стрима).
- OpenAI API — добавили o1, понизили цены и ещё пару плюшек.
- Информатор по делу об авторском праве мёртв — бедного парня нашли у себя дома, СМИ обвиняют OpenAI.
- +1-800-242-8478 — звоним ChatGPT и... пишем в WhatsApp. Мем.
- Thinking от Google — конкуренты OpenAI наступают на пятки со своими "думающими" модельками.
- o3 и o3-mini — модель на порядок превосходит предшественника o1. Правда, для прохождения бенчмарков нужно всего лишь $1,5 млн.
- Капча против AGI — убер-машина решает такие задачки, тратя пару тысяч $$$ за штуку. А как быстро вы сможете их решить?

Все, стримы OpenAI закончились😮‍💨

LLM
- Devin — AI-джун за $500 в месяц. Спорный стартап, пока неясно, как будет выигрывать конкуренцию у тех же OpenAI.
- Три опенсорс модели для русского языка — LLM, текстовый эмбеддинг и speech2text.
- Бесплатный GitHub Copilot — 2000 дополнений кода на месяц в VS Code.

Другие генеративные модели
- Veo 2 — Google подготовились к анонсам OpenAI лучше, чем сами OpenAI. Их text2video моделька по тестам (и теперь уже по зрительским симпатиям) опережает недавно вышедшую и теперь безлимитно доступную даже в базовой подписке Sora.
- ElevenLabs Flash 2.5 — научились генерить голоса в реальном времени, довольно правдоподобно, но это, конечно, не Voice Mod.
- Pika 2.0 бесплатно — кажется, поезд уже ушёл. Но не расстраивайтесь, Pika, как всегда, облажались и не завезли компьюта на такое количество народа. Так что, если вам повезло получить хотя бы пару видео, считайте себя счастливчиком.


> Читать дайджест #48

#дайджест
@ai_newz
Media is too big
VIEW IN TELEGRAM
Да, что этот робопёс себе позволяет?!

Вот здесь я совсем недавно на ECCV видел его вживую. А выше он же выполняет дикие трюки.

Unitree B2-W обойдётся любому желающему приобрести такого питомца в $150,000. Да, недешёвая выходит порода. Эта версия примечательна гибридом ног и колёс, вместо просто "палок", как у Boston Dynamics. Чуваки решили не отказываться от колёс — всё-таки это самый эффективный способ передвижения, которым природа обделила всех животных. Вышел эдакий гибрид ног с колёсами, совмещающий в себе проходимость ног и скорость колёс.

Кстати, Unitree выложили в опенсорс всё, на чём и как тренируют своих ботов, включая скрипты для Isaac Gym и датасеты.

Ну и, пользуясь случаем, напоминаю, что на эту зверюгу (другой версии) какие-то психи уже навесили ОГНЕМЕТ! и выпустили в продажу.

@ai_newz
Media is too big
VIEW IN TELEGRAM
Генерацию видео запустили на телефоне

Выглядит простенько, но 5 секундное видео генерится прямо на iPhone 16 Pro Max всего пять секунд, для небольших анимированных стикеров сойдёт.

За основу взяли Stable Diffusion 1.5 и VAE декодер из Open-Sora, которые крайне сильно запрунили, получив гигантский прирост по скорости - 10x в первом случае и аж 50x во втором. Модели старые и далеки от SOTA, но если кто-то в лоб применит такой же агрессивный прунинг, напрмер к Hunyuan или другим открытыми видео-моделями, то он будет очень сильно съедать качество.

Сайт проекта

@ai_newz
QVQ - 72B Reasoner от команды Qwen

Моделька умеет в визуальные инпуты, по мультимодальным бенчам обгоняет 4o, но отстаёт от o1. Результатов обычных бенчей не публикуют, так же как и было с Qwen 2 VL 72B, на которой, похоже, QVQ основана.

Reasoner модели - явно новая парадигма скейлинга, которой теперь занимаются примерно все, ждите подобные превью и релизы в ближайшие пару месяцев от всех лаб.

Веса
Демо

P.S. Китайцы что-то очень быстро всё релизят, сегодня дропнулась DeepSeek V3 на 685B параметров, пока без деталей, но уже доступна в чате.

@ai_newz
🎄Как всегда получаю на рождество книги про AI. Вот такую получил в подарок в этом году. Так как я живу в Европе, то по сути успеваю отпраздновать оба рождества:)

Книга Ника Бострома, профессора из Оксфорда, про философский взгляд на развитие AI. Ещё не читал, но уже интересно.

Забавно, что Бостром в 2014 году, когда вышла эта книга, очень много говорил про риски и скорее предостерегал о негативных последствиях развития AI, а сейчас он пришел к более сбалансированному взгляду и считает, что если чрезмерно бояться прогресса технологий, то это может значительно замедлить развитие человечества.


Если кто-то читал эту книгу, напишите в комментах, что думаете про неё.

Кстати, накидайте бустов, а то не могу постить стори.

#книги #books
@ai_newz
DeepSeek V3 - новый опенсорс лидер

На общих бенчах тягается с Sonnet 3.5 и GPT-4o, уверенно оставляя Llama 405B позади. Но особенно хорошо моделька показывает себя в кодинге и математике, что не удивительно - модель дистиллировали из R1, конкурента o1 от DeepSeek. А вот по бенчам для агентов Claude всё ещё значительно лучше.

Ушло на тренировку всего 2.78 миллиона H800 часов, что очень мало - у Colossus, суперкомпьютера xAI, на тренировку такой модели даже сейчас уйдёт всего день, а ведь его хотят увеличить в 10 раз. Датасет 14.8 триллионах токенов. Не смотря на то что тренировали в fp8, тренировка была на удивление гладкая - им ни разу во время тренировки не пришлось ничего откатывать.

Архитектурно модель это преемник DeepSeek V2, но заметно больше - 671 миллиардов параметров, из которых 37 миллиардов активных (у меня есть пост о том как это работает). Теперь моделька может опционально предсказывать два токена за раз, что даёт 1.8x прирост в скорости. Устройство MoE слоя тоже слегка изменили - softmax в роутере заменили на сигмоид, а общий эксперт теперь всего один на слой. Практически убрали дополнительные лосс функции, которые нужны были для балансировки такого большого MoE, из-за чего увеличилась точность. Вот пейпер о том как это работает.

До 8 февраля стоимость будет такая же как у V2 ($0.14/$0.28), а после её планируют заметно повысить - до $0.27/$1.10 за миллион токенов. Цена за закэшированные токены на вход тоже вырастает - с $0.014 до $0.07 за миллион токенов, но само кэширование бесплатное и автоматическое, да и хранят кэш целые сутки (у OpenAI и Anthropic по 5-10 минут, у Google платится за час кэша). Позволить себе так играться с ценами они могут - ни один провайдер до сих пор не запустил инференс DeepSeek V2 за адекватные деньги, надеюсь сейчас ситуация с этим улучшится. Даже с таким повышением цен, модель будет очень дешёвая - в 10 раз дешевле Sonnet 3.5 и 4o.

Веса
Пейпер
Чат (со вчерашнего дня на DeepSeek V3)

@ai_newz
ChatGPT лежит, давайте поговорим про локальные LLM

Какие модельки используют подписчики канала дома? Для чего вы их используете? На чём вы их запускате? Сервачок в облаке? Мак? ПК с парой видях? Пришло самое время поделиться своим локальным сетапом в комментах.

@ai_newz
Пятничный мем про жизу PhD студента.

@ai_newz
Нейродайджест за неделю (#50)
Рождество дает о себе знать, предновогодняя серия стримов OpenAI прошла. Все ресерчеры и инженеры разбежались по домам, кроме героев ниже:

LLM
- QVQ - 72B – Reasoner от Qwen. По мультимодальным бенчам обходит 4o, но до o1 ещё не дотягивает. А это ведь лишь цветочки - результаты нескольких месяцев работы с небольшими бюджетами, которые весь 2025 будут активно масштабировать.
- DeepSeek V3 – лучший в опенсорсе. Этот уже на равных конкурирует с SOTA не-reasoning моделями в стандартных бенчмарках, но при этом инференс в 10 раз дешевле. Посттрейн оставляет желать лучшего, но на то опенсорс и опенсорс, что скоро будут допиленные версии модели от комьюнити.
- О локальных LLM – ChatGPT лег, а мы обмениваемся своими любимыми модельками и локальными сетапами.

Прочее
- Unitree B2-W – робопёс на колёсах делает сальто и летает сквозь пересечённую местность.
- Локальный txt2video на мобиле! – взяли SD 1.5 VAE-декодер и жёстко заоптимизировали. Для стикеров пойдет.
- Книги на Новый год – или что подарить ML-щику.
- О PhD – мемчик.

> Читать дайджест #49

#дайджест
@ai_newz
С наступающим!🤩

Этот год был очень продуктивным для эйай ньюз, да и для меня в целом. Было очень много крутых новостей в сфере AI - вы просто полистайте ленту вверх, чтобы ощутить, как много всего произошло.

А завтра я опубликую список из топ-10 постов года.

В 2024 канал знатно вырос: пришло +25к новых читателей – добро пожаловать! Сейчас это самый крупный авторский tg-канал про AI и ML на русском языке, и это очень приятно.

В этом году я попробовал новые формы контента – сделал несколько стримов с друзьями и один (1, 2, 3, 4). В следующем году хотелось бы делать такое чаще, т.к мне это очень зашло. Пишите в комментах, какие темы вам были бы интересны.

У нас здесь образовалось очень крутое комьюнити профессионалов и всех причастных к AI, о чем можно судить как по обсуждениям в комментариях, так и по оффлайн-тусам, не говоря уже о закрытой группе. Спасибо, что читаете, друзья! ❤‍🔥

--
P.S. кстати, сразу после НГ планирую провести еще одну оффлайн-сходку, если в том месте, где я сейчас нахожусь, наберется критическая масса людей. Скоро будет анонс!

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Mustread: Топ-10 постов 2024 года!

Год подходит к концу, а я продолжаю подводить итоги. Это был крайне насыщенный и плодовитый на новости и другие посты год.

Вот 10 самых интересных из них (в хронологическом порядке):

1) Подборки пейперов про ускорение диффузии — я рассказал как и про дистилляцию, так и про другие методы ускорения.
2) Теперь я Staff Research Scientist — личный апдейт.
3) Инженерные грейды в бигтехе — что такое Staff Research Scientist , и почему Senior — это ещё не всё
4) Ликбез по оптимизации SD3-Turbo — Latent Adversarial Diffusion Distillation в деталях.
5) Что такое Mixture of Experts (MoE) — детальнейший разбор простым языком.
6) Командировка в Калифорнию — о том, как я веду дела и двигаюсь по карьерной лестнице.
7) Автономные агенты в Minecraft — которые позже (но от другой компании) построили цивилизацию из 1000 ботов.
8) О карьерных траекториях в AI — нужен ли PhD?
9) О компенсации в FAANG+ — или где бабки, Лебовски?
10) Movie Gen — 30B text2video модель, где есть и мой вклад!

Ну и самое главное на эти выходные — про отдых с отключением.

Хороших праздников! 🎉

#дайджест
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Сходка на Бали в 2025

Ребят, как я уже намекал вчера, хочу организовать оффлайн встречу через несколько дней. И, кажется, это будет самая экзотичная сходка "эйай ньюз" – на Бали!

Уверен, что несколько человек из нашего комьюнити точно найдутся на острове. Интересно, сколько нас тут?

Ориентировочно хочу устроить встречу 3-4 января в районе пляжа Чангу.

Добавляйтесь в чат, если вы на Бали и предлагайте место, где можно встретиться. Буду очень рад вас всех увидеть!

@ai_newz
2025/01/03 10:19:36
Back to Top
HTML Embed Code: