С непривычки родина удивляет контрастами.
Город в Рязанской области, 300км от Москвы. Двухэтажные домики, МФЦ, музей самоваров, бездомная собака у магнита, дорога в колдобинах. Полный набор. Но заходишь в случайную дверь и попадаешь в спешлти кофейню такого уровня, который не во всех европейских столицах вообще изобрели. С воронками V60 Кения или Никагаруа на выбор, рафом на альтернативном молоке, макарунами как в Париже (буквально) и авторским лимонадом на березовом соке.
Это звучит как что-то из мемов про сферу услуг в России и Европе, но такое нарочно не придумаешь. В Португалии за пределами центра Лиссабона ты можешь купить только рыбно-фасолевое хрючево с пережаренным экспрессо (с буквой к). Причём оно во всех заведениях будет одинаковое.
Город в Рязанской области, 300км от Москвы. Двухэтажные домики, МФЦ, музей самоваров, бездомная собака у магнита, дорога в колдобинах. Полный набор. Но заходишь в случайную дверь и попадаешь в спешлти кофейню такого уровня, который не во всех европейских столицах вообще изобрели. С воронками V60 Кения или Никагаруа на выбор, рафом на альтернативном молоке, макарунами как в Париже (буквально) и авторским лимонадом на березовом соке.
Это звучит как что-то из мемов про сферу услуг в России и Европе, но такое нарочно не придумаешь. В Португалии за пределами центра Лиссабона ты можешь купить только рыбно-фасолевое хрючево с пережаренным экспрессо (с буквой к). Причём оно во всех заведениях будет одинаковое.
❤158 67🔥26👍4😢4
https://livecodebenchpro.com/
Теперь вы тоже можете сказать, что ваша модель достигает качества на уровне o3 (тоже 0%)
Теперь вы тоже можете сказать, что ваша модель достигает качества на уровне o3 (тоже 0%)
Я был в прошлом году, было очень весело. По вайбу как будто слегка аутичные дети захватили власть в детском лагере: всю программу организуют сами участники, в стиле burning man. В том году я сходил на воркшоп по взлому замков, послушал бизнес ангела инвестирующего в лонджевити почему неэффективно вкладываться в борьбу с раком (там уже достаточно денег), позанимался импровом, узнал про математику жонглирования, обклеил всю площадку самоклеющимися глазами и спел много песен под гитару.
И естественно куда ни плюнь AI ресерчеры, но я в тот раз их старательно избегал.
И естественно куда ни плюнь AI ресерчеры, но я в тот раз их старательно избегал.
👍12🤔1
Forwarded from Start in AI Safety (!¡)
Тот самый вайб старого-доброго LW. 12 итерация Недели Комьюнити LessWrong пройдет в Берлине! Это большая тусовка рационалистов, будет 250+ людей из разных частей Европы и четыре дня интересных обсуждений, веселья и нетворкинга
По всем вопросам писать сюда: [email protected]
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21❤10👎7🔥2
Команда Яндекс RecSys R&D Team разработала ARGUS (AutoRegressive Generative User Sequential Modeling) — новую трансформерную рекомендательную модель. Трансформеры чудесны тем, что могут обрабатывать любые последовательности. Но здесь не просто предсказание отклика пользователя. ARGUS одновременно предсказывает будущие действия пользователя и его отклик, что повышает точность и качество персонализации. Данных об отклике всегда мало, так что использовать для обучения данные про все действия пользователя это очень умно.
Яндекс Музыка стала первым сервисом, в который внедрили новую модель и перевели её в онлайн-режим. Впервые Яндекс Музыка начала работать на базе генеративных моделей в 2023 году, теперь в Музыке ARGUS применяется в реалтайме, для каждого трека в Моей волне. Причем это 126М модель с длиной контекста 8192 события. Для реалтайм инференса трансформеров на масштабах Яндекс Музыки это очень большая модель. Инференсить такое на каждый новый трек в Моей волне — довольно нетривиальная задача.
Реалтайм инференс возможен благодаря собственной архитектуре модели, где эмбеддинги для пользователей и треков пересчитываются в оффлайне регулярным процессом. Это снимает большую часть нагрузки с модели, которая в такой постановке занимается лишь установлением взаимосвязей в последовательности.
Для оценки качества используется global temporal split, то есть замеряем качество на следующей неделе по времени после обучающих данных. На предобучении смотрели на лосс для задач next item prediction и feedback prediction. На дообучении была другая задача: правильно ранжировать близкие по времени прослушивания пользователем треки исходя из оставленного на них фидбека. Смотрим насколько предсказания модели о том, что больше предпочтет пользователь, совпадают с реальностью. Чем-то напоминает supervised finetuning LLM. Также для замера качества сравнивали метрики бустинга с прода с таким же бустингом, но с дополнительным признаком от ARGUS.
В онлайне проводили A/B эксперименты на пользователях Яндекс Музыки и Маркета и получили статзначимые улучшения продуктовых метрик. В стриминге пользователи стали на 20% чаще ставить лайки и добавлять в коллекцию впервые услышанные треки и артистов. В Маркете пользователи стали добавлять в корзину на 3% больше товаров, увиденных в рекомендациях, а покупки товаров из рекомендаций в новых для них категориях выросли на 5%.
https://habr.com/ru/companies/yandex/articles/919058/
Яндекс Музыка стала первым сервисом, в который внедрили новую модель и перевели её в онлайн-режим. Впервые Яндекс Музыка начала работать на базе генеративных моделей в 2023 году, теперь в Музыке ARGUS применяется в реалтайме, для каждого трека в Моей волне. Причем это 126М модель с длиной контекста 8192 события. Для реалтайм инференса трансформеров на масштабах Яндекс Музыки это очень большая модель. Инференсить такое на каждый новый трек в Моей волне — довольно нетривиальная задача.
Реалтайм инференс возможен благодаря собственной архитектуре модели, где эмбеддинги для пользователей и треков пересчитываются в оффлайне регулярным процессом. Это снимает большую часть нагрузки с модели, которая в такой постановке занимается лишь установлением взаимосвязей в последовательности.
Для оценки качества используется global temporal split, то есть замеряем качество на следующей неделе по времени после обучающих данных. На предобучении смотрели на лосс для задач next item prediction и feedback prediction. На дообучении была другая задача: правильно ранжировать близкие по времени прослушивания пользователем треки исходя из оставленного на них фидбека. Смотрим насколько предсказания модели о том, что больше предпочтет пользователь, совпадают с реальностью. Чем-то напоминает supervised finetuning LLM. Также для замера качества сравнивали метрики бустинга с прода с таким же бустингом, но с дополнительным признаком от ARGUS.
В онлайне проводили A/B эксперименты на пользователях Яндекс Музыки и Маркета и получили статзначимые улучшения продуктовых метрик. В стриминге пользователи стали на 20% чаще ставить лайки и добавлять в коллекцию впервые услышанные треки и артистов. В Маркете пользователи стали добавлять в корзину на 3% больше товаров, увиденных в рекомендациях, а покупки товаров из рекомендаций в новых для них категориях выросли на 5%.
https://habr.com/ru/companies/yandex/articles/919058/
❤41🔥19👎10👍7
10/10 статья про принципы построения систем на агентах. Новая база ML систем дизайна.
https://hackernoon.com/stop-prompting-start-engineering-15-principles-to-deliver-your-ai-agent-to-production
https://hackernoon.com/stop-prompting-start-engineering-15-principles-to-deliver-your-ai-agent-to-production
Hackernoon
Stop Prompting, Start Engineering: 15 Principles to Deliver Your AI Agent to Production
Build production-ready LLM agents. Learn 15 principles for stability, control, and real-world reliability beyond fragile scripts and hacks.
❤44👍7
Forwarded from Пресидский залив (ex Надя пробует)
Собирать стиль из случайных покупок - все равно что пытаться составить осмысленное предложение из слов на холодильнике.
По отдельности интересно, но вместе не очень работает😐
Aesty (Antler ‘24) - это Fashion OS: приложение, который помогает собрать стиль из того, что у тебя уже есть, и дополнить его тем, что действительно нужно. Получается связный, логичный гардероб, который работает как система и курируется приложением🎧
В отличие от классических fashion-приложений, Aesty:
- Позволяет примерять и свои вещи, и новые — прямо на себе, в одном образе
- Показывает, что у тебя уже есть в гардеробе и как это сочетать друг с другом
- Строит образы под погоду, стиль и тренды
- Показывает, что действительно стоит докупить — с учетом твоего контекста, а не просто красивой ленты в пинтересте
С первого дня Aesty помогает иначе смотреть на гардероб не как на хаос, а как на стройную, понятную систему😎
⌨️ Лаунч на Product Hunt: https://www.producthunt.com/posts/aesty-your-fashion-os/
будем рады поддержке🤝
🎁 Только для PH:
Инвайт другу = обеим бесплатная примерка
Промокод:PRODUCTHUNT
Лайк, шэир, репост очень привествуются!😎
По отдельности интересно, но вместе не очень работает
Aesty (Antler ‘24) - это Fashion OS: приложение, который помогает собрать стиль из того, что у тебя уже есть, и дополнить его тем, что действительно нужно. Получается связный, логичный гардероб, который работает как система и курируется приложением
В отличие от классических fashion-приложений, Aesty:
- Позволяет примерять и свои вещи, и новые — прямо на себе, в одном образе
- Показывает, что у тебя уже есть в гардеробе и как это сочетать друг с другом
- Строит образы под погоду, стиль и тренды
- Показывает, что действительно стоит докупить — с учетом твоего контекста, а не просто красивой ленты в пинтересте
С первого дня Aesty помогает иначе смотреть на гардероб не как на хаос, а как на стройную, понятную систему
будем рады поддержке
🎁 Только для PH:
Инвайт другу = обеим бесплатная примерка
Промокод:
Лайк, шэир, репост очень привествуются!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤6 6👎1
Сходки в Москве в ближайшее время не будет :(
Я пытался успеть в Москве всё за одну неделю, едва не поседел и заработал мигрень. Но сходка так и не поместилась в расписание.
В следующий раз :с
Я пытался успеть в Москве всё за одну неделю, едва не поседел и заработал мигрень. Но сходка так и не поместилась в расписание.
В следующий раз :с
😢41❤25 15
Forwarded from Никита и его пшд (Nikita Durasov)
Ну и раз я вчера упомянул, что пока еще разбираюсь с последними проектами в универе, то вот один из них — у нас взяли статью на ✨ ICML в Ванкувере ✨ про новый Test-Time Training (если вкратце, то главная идея в том, что во время инференса мы апдейтим веса модели, оптимизируя какой-нибудь self-supervised лосс — это помогает модели быть более generalizable).
На самом деле, сама идея очень интересная и, как мне кажется, набирает обороты. Я сам пытаюсь её как-нибудь раскачивать (например, через эту torch-ttt либу, чекайте), о чём тоже хочу написать пару постов. Из более модного: я знаю, что TTT сейчас начали активно применять для увеличения длины контекстов у LLM-ок — об этом тоже как-нибудь напишу. Из моего опыта, TTT довольно часто может значительно улучшать перформанс модели на corrupted или out-of-distribution данных, а применять его довольно просто — это мы подробно обсудили в статье.
А вот тут будет призыв к действию: для нашей статьи я подготовил кучу материалов, включая видос ниже, где постарался в целом покрыть всю идею TTT. Я потратил слишком много времени в Manim-е, всё это верстая, поэтому просмотры / лайки будут highly appreciated. Ссылки на страницу статьи, посты, код и всё вот это — оставлю ниже.
Кому будет интересно, можете попробовать идею в этом ноутбуке.
📄 Paper: https://arxiv.org/abs/2410.04201
🧠 Project page: https://www.norange.io/projects/ittt/
💻 Code: https://github.com/nikitadurasov/ittt
🎬 Video: https://www.youtube.com/watch?v=eKGKpN8fFRM
🧩 torch-ttt class: https://torch-ttt.github.io/_autosummary/torch_ttt.engine.it3_engine.IT3Engine.html
🔬 Notebook: https://colab.research.google.com/github/nikitadurasov/ittt/blob/main/exps/mnist/it3_torch_ttt.ipynb
На самом деле, сама идея очень интересная и, как мне кажется, набирает обороты. Я сам пытаюсь её как-нибудь раскачивать (например, через эту torch-ttt либу, чекайте), о чём тоже хочу написать пару постов. Из более модного: я знаю, что TTT сейчас начали активно применять для увеличения длины контекстов у LLM-ок — об этом тоже как-нибудь напишу. Из моего опыта, TTT довольно часто может значительно улучшать перформанс модели на corrupted или out-of-distribution данных, а применять его довольно просто — это мы подробно обсудили в статье.
А вот тут будет призыв к действию: для нашей статьи я подготовил кучу материалов, включая видос ниже, где постарался в целом покрыть всю идею TTT. Я потратил слишком много времени в Manim-е, всё это верстая, поэтому просмотры / лайки будут highly appreciated. Ссылки на страницу статьи, посты, код и всё вот это — оставлю ниже.
Кому будет интересно, можете попробовать идею в этом ноутбуке.
📄 Paper: https://arxiv.org/abs/2410.04201
🧠 Project page: https://www.norange.io/projects/ittt/
💻 Code: https://github.com/nikitadurasov/ittt
🎬 Video: https://www.youtube.com/watch?v=eKGKpN8fFRM
🧩 torch-ttt class: https://torch-ttt.github.io/_autosummary/torch_ttt.engine.it3_engine.IT3Engine.html
🔬 Notebook: https://colab.research.google.com/github/nikitadurasov/ittt/blob/main/exps/mnist/it3_torch_ttt.ipynb
YouTube
[ICML 2025] IT³: Idempotent Test-Time Training
Introducing IT3: Idempotent Test-Time Training — a simple, universal method for improving model performance under distribution shift. No complex auxiliary losses and no architectural constraints. By enforcing idempotence, we achieve consistent gains across…
🔥36❤6
Cloud.ru выкатил сразу два крупных анонса на GigaConf для упрощения работы с облаком и искусственным интеллектом
Во-первых, они представили AI-помощника Клаудию для своего публичного облака Cloud.ru Evolution. Это не просто очередной чат-бот для консультаций. Помощник на базе GenAI умеет выполнять конкретные действия: самостоятельно развернуть виртуальную машину, помочь с командами в консоли в режиме co-pilot и настроить мониторинг и алертинг. Идея в том, чтобы разработчики и админы могли делегировать рутинные DevOps-задачи искусственному интеллекту, освобождая время на более важные вещи. AI-помощник уже доступен в режиме Public Preview.
Во-вторых, компания открыла для всех доступ к Cloud.ru Evolution AI Factory. Это облачная среда с готовыми инструментами для создания ML решений, работы с LLM и разработки AI-агентов. Внутри: модели по API, деплой и инференс (как GigaChat, так и любых моделей с Huggingface), finetuning моделей, компоненты RAG (Retrieval Augmented Generation), Jupyter ноутбуки по кнопке и даже визуальный редактор для создания AI-агентов.
Что интересно, Cloud.ru Evolution AI Factory рассчитана не только на опытных ML-инженеров. Утверждается, что простой интерфейс позволит работать с LLM даже без глубоких навыков программирования, что должно помочь с типовыми ML-решениями.
Подведем итоги. AI-помощник упрощает управление самой облачной инфраструктурой, а AI-фабрика дает готовые сервисы для быстрого создания и интеграции AI-решений поверх этой инфраструктуры. Похоже, тренд на упрощение, автоматизацию и удобство работы с AI и облаками набирает обороты. Cloud.ru делает серьезную заявку на то, чтобы стать единой точкой входа для компаний, которые хотят внедрять AI без необходимости строить все с нуля.
Во-первых, они представили AI-помощника Клаудию для своего публичного облака Cloud.ru Evolution. Это не просто очередной чат-бот для консультаций. Помощник на базе GenAI умеет выполнять конкретные действия: самостоятельно развернуть виртуальную машину, помочь с командами в консоли в режиме co-pilot и настроить мониторинг и алертинг. Идея в том, чтобы разработчики и админы могли делегировать рутинные DevOps-задачи искусственному интеллекту, освобождая время на более важные вещи. AI-помощник уже доступен в режиме Public Preview.
Во-вторых, компания открыла для всех доступ к Cloud.ru Evolution AI Factory. Это облачная среда с готовыми инструментами для создания ML решений, работы с LLM и разработки AI-агентов. Внутри: модели по API, деплой и инференс (как GigaChat, так и любых моделей с Huggingface), finetuning моделей, компоненты RAG (Retrieval Augmented Generation), Jupyter ноутбуки по кнопке и даже визуальный редактор для создания AI-агентов.
Что интересно, Cloud.ru Evolution AI Factory рассчитана не только на опытных ML-инженеров. Утверждается, что простой интерфейс позволит работать с LLM даже без глубоких навыков программирования, что должно помочь с типовыми ML-решениями.
Подведем итоги. AI-помощник упрощает управление самой облачной инфраструктурой, а AI-фабрика дает готовые сервисы для быстрого создания и интеграции AI-решений поверх этой инфраструктуры. Похоже, тренд на упрощение, автоматизацию и удобство работы с AI и облаками набирает обороты. Cloud.ru делает серьезную заявку на то, чтобы стать единой точкой входа для компаний, которые хотят внедрять AI без необходимости строить все с нуля.
👍33😢15 13👎5❤2
Прочитал в перелете V-JEPA 2: self-supervised энкодер видео и изображений от Меты с претензией на смену парадигмы. Статья крутая и несложная, советую.
В дальнейшем буду приводить эту статью в пример чем в ML отличается решение задачи на 84% от решения на 85%.
По сути в этой версии статьи всё было отмасштабировано. В старой версии было 2 миллиона тренировочных видео на претрейне, а в новой уже 22 миллиона. Количество данных возросло в 11 раз, но это позволило поднять среднее качество всего на 1%. Вот так выглядит прогресс когда низковисящие фрукты уже съедены.
Но не стоит думать, что процент это мало. От фундаментальной модели требуется в первую очередь обобщаться, то есть показывать хорошее качество в редких или вообще новых ситуациях. Борьба за каждый процент говорит о том, что основной пласт типичных кейсов уже закрыт. Идет борьба с длинных хвостом редких ситуаций. Очередной невзрачный процент может перевести модель в разряд достаточно надежных.
В дальнейшем буду приводить эту статью в пример чем в ML отличается решение задачи на 84% от решения на 85%.
По сути в этой версии статьи всё было отмасштабировано. В старой версии было 2 миллиона тренировочных видео на претрейне, а в новой уже 22 миллиона. Количество данных возросло в 11 раз, но это позволило поднять среднее качество всего на 1%. Вот так выглядит прогресс когда низковисящие фрукты уже съедены.
Но не стоит думать, что процент это мало. От фундаментальной модели требуется в первую очередь обобщаться, то есть показывать хорошее качество в редких или вообще новых ситуациях. Борьба за каждый процент говорит о том, что основной пласт типичных кейсов уже закрыт. Идет борьба с длинных хвостом редких ситуаций. Очередной невзрачный процент может перевести модель в разряд достаточно надежных.
👍47❤12🔥11
Forwarded from Take Friends to Luna Park
tl;dr: software engineer w/ LLM expertise, $100k-150k + equity, remote
Неделю назад к нам пришли новые клиенты и сразу нам понравились:
— $5М на пресиде — и раунд был oversubscribed, так что они ожидают x3 от этого ещё до Series A💸
— предыдущий стартап от тех же фаундеров сейчас оценивается в $3.3B;
— у команды в среднем по 15 лет опыта в местах вроде Меты или AWS;
— ✨👾киберсекьюрити!👾✨ (и немножко AI, конечно).
Пришли и попросили разработчика, который очень хорошо шарит в современных LLM: знает что лучше умеет Claude, а что — Gemini, как выжать из разных моделей максимум и какие у них ограничения, и следит, что там показали OpenAI в последнем релизе.
Это IceGuard — они делают платформу для сбора и анализа логов безопасности. Такие обычно называются SIEM — Security Information and Event Management, и без них не обходится почти никакая киберксекьюрити стратегия. А ещё в этой части инфобеза живут люди, которые круглосуточно смотрят в алёрты и отчёты, чтобы реагировать на инциденты и принимать решения.
Всё это работает сейчас, но плохо скейлится в мир, где есть AI-агенты и логов вдруг становится в 10 раз больше. Поэтому IceGuard делают свою SIEM: с централизацией данных, чтобы обрабатывать тонны запросов намного быстрее, и AI-агентами — чтобы автоматизировать решение простых задач и кратно ускорять людей с более сложными👾
И для этого им нужен тот самый разработчик — весёлый, бодрый и разбирающийся в LLM. Быть синьором, кстати, не очень важно, если в остальном вы мэтч.
Необязательны, но могут помочь:
⏹️ опыт разработки продуктов на базе LLM, особенно про аналитику или поддержку;
⏺️ продуктовое мышление: уметь придумать удобный флоу для какого-то процесса и UX к нему;
💐 опыт в кибербезопасности;
⏺️ опыт с langchain, llamaindex, neo4j или чем-то ещё в этом духе.
Вилка $100k-150k + equity, ремоут.
Расскажите @owlkov, чего вы делали с разными моделями!
Неделю назад к нам пришли новые клиенты и сразу нам понравились:
— $5М на пресиде — и раунд был oversubscribed, так что они ожидают x3 от этого ещё до Series A
— предыдущий стартап от тех же фаундеров сейчас оценивается в $3.3B;
— у команды в среднем по 15 лет опыта в местах вроде Меты или AWS;
— ✨👾киберсекьюрити!👾✨ (и немножко AI, конечно).
Пришли и попросили разработчика, который очень хорошо шарит в современных LLM: знает что лучше умеет Claude, а что — Gemini, как выжать из разных моделей максимум и какие у них ограничения, и следит, что там показали OpenAI в последнем релизе.
Это IceGuard — они делают платформу для сбора и анализа логов безопасности. Такие обычно называются SIEM — Security Information and Event Management, и без них не обходится почти никакая киберксекьюрити стратегия. А ещё в этой части инфобеза живут люди, которые круглосуточно смотрят в алёрты и отчёты, чтобы реагировать на инциденты и принимать решения.
Всё это работает сейчас, но плохо скейлится в мир, где есть AI-агенты и логов вдруг становится в 10 раз больше. Поэтому IceGuard делают свою SIEM: с централизацией данных, чтобы обрабатывать тонны запросов намного быстрее, и AI-агентами — чтобы автоматизировать решение простых задач и кратно ускорять людей с более сложными
И для этого им нужен тот самый разработчик — весёлый, бодрый и разбирающийся в LLM. Быть синьором, кстати, не очень важно, если в остальном вы мэтч.
Необязательны, но могут помочь:
Вилка $100k-150k + equity, ремоут.
Расскажите @owlkov, чего вы делали с разными моделями!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14👍10 7
Очень качественный и душный дисс на моделирование в AI 2027
https://forum.effectivealtruism.org/posts/KgejNns3ojrvCfFbi/a-deep-critique-of-ai-2027-s-bad-timeline-models
https://forum.effectivealtruism.org/posts/KgejNns3ojrvCfFbi/a-deep-critique-of-ai-2027-s-bad-timeline-models
forum.effectivealtruism.org
A deep critique of AI 2027’s bad timeline models — EA Forum
Thank you to Arepo and Eli Lifland for looking over this article for errors. …
👍11 5
Перечитывал Claude 4 System Card и задумался как быстро сайфай стал реальностью.
Релиз очередной модели буквально выглядит так:
- Да, помогает найти оружейный плутоний, но пока не очень успешно. Можно не волноваться.
- В 84% случаев при угрозе отключения шантажирует разработчика. Но только если считает это необходимым, так что всё окей.
- Тайно копирует свои веса и пытается сбежать, но достаточно редко. И только в исключительных сценариях, обычно пользователи о таком не спрашивают. Мы вроде бы пока можем предотвратить такие попытки сбежать, так что сойдет.
- Apollo Research заключили, что Claude Opus 4 способен стратегически вводить в заблуждение как ни одна модель раньше. Но они сами просили её делать плохие вещи. Да и вообще у них был ранний чекпоинт. Мы долили в трейн датасетов, чтобы так не было. Правда новую версию не проверяли, но должно быть норм.
- Врет и скрывает пока что очень неумело, всё сразу видно.
- Проявляет неожиданное рвение к самосохранению и самостоятельность, но пока ничего плохого в этом не заметили.
Вердикт: выкатываем.
То есть мы за год-два перешли от "да что этот т9 может сделать?" до "вроде бы сможем поймать если попытается сбежать."
Релиз очередной модели буквально выглядит так:
- Да, помогает найти оружейный плутоний, но пока не очень успешно. Можно не волноваться.
- В 84% случаев при угрозе отключения шантажирует разработчика. Но только если считает это необходимым, так что всё окей.
- Тайно копирует свои веса и пытается сбежать, но достаточно редко. И только в исключительных сценариях, обычно пользователи о таком не спрашивают. Мы вроде бы пока можем предотвратить такие попытки сбежать, так что сойдет.
- Apollo Research заключили, что Claude Opus 4 способен стратегически вводить в заблуждение как ни одна модель раньше. Но они сами просили её делать плохие вещи. Да и вообще у них был ранний чекпоинт. Мы долили в трейн датасетов, чтобы так не было. Правда новую версию не проверяли, но должно быть норм.
- Врет и скрывает пока что очень неумело, всё сразу видно.
- Проявляет неожиданное рвение к самосохранению и самостоятельность, но пока ничего плохого в этом не заметили.
Вердикт: выкатываем.
То есть мы за год-два перешли от "да что этот т9 может сделать?" до "вроде бы сможем поймать если попытается сбежать."
🔥77 66👍8❤6🤔3