Data Secrets

У Google вышла крутая статья про новую архитектуру Titan, которая может победить проблему забывания в трансформерах Традиционные трансформеры очень прожорливы. Архитектура масштабируется квадратично по мере увеличения длины последовательности. Это приводит…

Кстати, эпилог к новой статье Google заслуживает отдельного внимания. Звучит как «The true art of memory is the art of attention!», то есть «Искусство запоминания это искусство внимания».

Это цитата Сэмюэля Джонсона (да, того самого, чей портрет стал мемом). Он был английским критиком и лексикографом, и сказал это (точнее, написал) в 1787.

Сегодня это высказывание можно делать лозунгом всего ML

❤81👍25🦄12🕊6😁3☃2❤‍🔥1

13.2K viewsedited 14:24

Data Secrets

This media is not supported in your browser

VIEW IN TELEGRAM

В ChatGPT появились Tasks

Теперь можно запланировать задачу на определенное время, например «пришли мне напоминание вытащить мясо из морозилки в 6 вечера» или «присылай мне колыбельную каждый день в 11 вечера». Бот выполнит ее в установленное время, при этом неважно, онлайн пользователь или нет. Поддерживается до 10 таких отложенных тасок одновременно.

Также теперь бот сам может предлагать какие-то задачи. Например, если видит, что вы не дописали код, может спросить, не хотите ли закончить задачу.

Почему это крутой и заметный релиз? Во-первых, потому что это первый чат-бот, который так умеет. Во-вторых, потому что это еще на шажок приближает нас к агентам, которые могут поддерживать действия в системе, а не просто диалог.

Вспоминается недавняя история о том, как ChatGPT написал юзеру первый и это произвело настоящий фурор в интернете (пост). Снова то, что удивляло нас еще недавно, сегодня становится реальным.

Пробовать можно уже сейчас (раскатили на всех платников), но у многих пока продолжаются сбои из-за наплыва трафика

❤‍🔥53👍36🔥12❤6😁4👏3

12.7K views07:00

Data Secrets

Лаборатория Hailuo AI только что дропнула MiniMax-01: первую LLM с Lightning Attention и контекстным окном 4 миллиона токенов!

Lightning Attention – это модификация атеншена, которая разработана специально для длинных контекстов. Работает на основе key-value lookup (недавно Meta делали про этот подход статью, посмотрите наш разбор).

Ключевое отличие от ванильного внимания: ключи и значения являются обучаемыми параметрами, а не временными активациями. За счет этого архитектура, основанная на таких memory layers, лучше скейлится на длинные последовательности.

Плюсом прикрутили silu, гейтинг и CUDA оптимизации. В итоге получилось что-то довольно красивое: в таблицах видно хорошие приросты метрик в задачах, где надо анализировать много текста, а Memory+ с 64 миллионами ключей достигает точности близкой к Llama 7B, при этом используя в 10 раз меньше FLOPs.

Снова Китай на высоте. Попробовать можно здесь: www.hailuo.ai/

🔥61👍14❤11👏6🤯4⚡1🎉1

13.6K views09:17

Data Secrets

AGI, это ты?

😁300❤21🔥9👏6👍2❤‍🔥1

16.5K views11:17

Data Secrets

НИУ ВШЭ выкатили рейтинг лучших вузов по качеству приема абитуриентов. Оценивали средний балл ЕГЭ у бакалавров и специалистов, поступивших в 2024 году.

В топ-10 по качеству общего набора оказались не только всем знакомые МФТИ и МГИМО, но и неожиданно – Центральный университет (вуз, созданный при поддержке 50 крупнейших компаний страны для подготовки профессиональных кадров для бизнеса). Он обогнал МГУ имени М.В. Ломоносова и получил восьмое место со средним баллом ЕГЭ 84,7. Результат платного набора составил 84,4, что позволило Центральному университету замкнуть тройку лидеров. Его опередили только МФТИ и Университет Иннополис.

В Центральном университете отметили, что у абитуриентов есть много возможностей получения грантов, покрывающих до 100% стоимости обучения. Студентам вуз предоставляет оплачиваемые стажировки в топовых российский компаниях.

P.S. Неплохие условия для старта карьеры, в наше время такого не было.

😁64👍31❤17❤‍🔥6😎4🤨2🕊1🙈1

13.1K views13:17

Data Secrets

Почему o1 иногда думает на китайском?

После выхода o1 некоторые пользователи стали замечать любопытное явление: во время размышлений модель может рандомно переключиться на... китайский язык (пример). Ответ она затем дает на языке пользователя, но ситуацию это не проясняет.

o1, кстати, не одинственный ризонер, который так делает. QwQ вот тоже переключается во время рассуждений на китайский(пост). Но с QwQ все понятно, моделька родом из Китая и основной язык данных китайский. А o1 то чего?

OpenAI такое поведение никак не комментировали, но у других экспертов и ресерчеров есть идеи. Например, CEO Hugging Face пишет (и это, конечно, первое, о чем можно подумать), что в трейне просто было очень-очень много китайской даты, потому что многие компании, и возможно OpenAI в том числе, используют китайские сервисы разметки. Так что это вполне правдоподобный вариант.

Но это не объясняет, почему только китайский. Ведь в данных точно много разметки на хинди, или на тайском, или на испанском. Но модель никогда, вообще никогда на эти языки не переключается. Почему?

Некоторые считают, что это мог быть намеренный эксперимент OpenAI, ведь токены в китайском языке гораздо информативнее, чем в других, а значит, рассуждения на китайском могут быть короче и дешевле. А если думать о том, что модель действительно выполняет поиск в пространстве решений, то объяснить происходящее можно так: рассуждения на определенном языке в определенных доменах могут чаще приводить к правильным ответам (например, из-за того же дисбаланса в данных), чем рассуждения на других языках, потому модель такие ветки и выбирает.

В любом случае, пока такое поведение – загадка. Надеемся, OpenAI все-таки даст свои комментарии

⚡93😁34❤20🤔13👍11🤪3🔥2👾2

16.5K viewsedited 15:33

Data Secrets

Огонь: Hugging Face запускает собственный бесплатный сертифицированный курс по практическому изучению агентов

Они объявили об этом несколько часов назад в своем блоге. Пишут, что на курсе обучат:

🔵

Теоретическим основам: что такое агенты, какие агенты бывают, как научить агента с помощью LLM воспринимать окружение, в которое его поместили, и действовать там

🔵

Непосредственно созданию агентов. Будет много практики на основных фреймворках и реальных приложениях: «от автоматизации SQL запросов до генерации кода и суммаризации документов». Помните, что это агенты, и, например, та же суммаризация документов – это не про привычный pdf2summary, а про то, как научить модель ориентироваться в сложной структуре файлов на компьютере + самой находить и обрабатывать нужные доки.

Hugging Face, в общем, снова сделали что-то крутое. Запись на курс свободная, записаться можно здесь

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥117👍35❤13👏5⚡1🤩1

17.2K views06:17

Data Secrets

Пост для тех, кому хочется отвлечься от разговоров про LLM-гонку: вышло крутое интервью про старую добрую продуктовую аналитику

Гость – продакт оунер AppMetrica (это инструмент для аналитики приложений от Яндекса, пожалуй самый популярный в России). Вот несколько интересных тезисов про тренды в области:

🟦

Самое важное для бизнеса сегодня – лучше понимать поведение пользователей и вовремя реагировать на изменение метрик. Поэтому увеличивается роль проактивной аналитики. Это значит, что формат, когда люди сами анализируют данные в поисках проблем, устарел: теперь сигналы о значимых изменениях должна подавать сама аналитическая система. Например, в AppMetrica это предусмотрено в новом инструменте "Инсайты".

🟦 Еще одним трендом игровой аналитики станет поиск баланса между доходом от рекламы и внутренними покупками. Если раньше сложные игры зарабатывали на "внутриигровых" покупках, а более простые – на их комбинации с рекламой, то сейчас эти паттерны размываются.

🟦 Ну и, конечно, все стремятся к единому окну для анализа данных из разных систем аналитики, и это – одно ключевых направлений развития AppMetrica. Например, сегодня там уже можно увидеть интеграции со сторонними трекингами и рекламными сервисами.

Полностью почитать можно здесь

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24🗿8🤯4❤1😁1

11.8K views08:02

Data Secrets

Пошли какие-то недвусмысленные намеки от OpenAI Вчерашний твит ресерчера оттуда, который, кстати, занимается агентами: Я скучаю по временам, когда мы занимались ИИ-исследованиями, не зная, как достичь суперинтеллекта. И сразу за этим, твит Альтмана: …

Тем временем сотрудники OpenAI продолжают оставлять нам недвусмысленные интригующие твиты

Два дня назад (by Стефен МакАлир, лид-рисерчер безопасности ИИ):

«Контроль суперинтеллекта – это наша самая краткосрочная агенда»

До этого, 31 декабря, он писал:

«AlphaGo, который обучали только на человеческих данных, достиг любительского уровня. Но с другой стороны, как только Google щелкнули RL, суперинтеллект стал неизбежен»

И вот сегодня (by Джейсон Вей, лид-рисерчер):

«Магия — это то, что происходит, когда неостанавливаемый алгоритм RL, работающий на достаточной вычислительной мощности, встречается с неподдающейся взлому средой RL»

Интересно, им за это доплачивают? 😆

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

😁74🔥22👍14🤔9🐳3😐3

12.3K views09:11

Data Secrets

Новость дня: Франсуа Шолле запускает собственную AI-компанию!

Напоминаем, что недавно Шолле уволился из Google DeepMind, где был ведущим исследователем (пост). За долгие годы в Google он стал создателем Keras, главным автором бенчмарка ARC AGI, приложил руку к куче важных проектов и написал кучу известных учебников.

Шолле с самого начала говорил о том, что уволился, чтобы создать собственную лабораторию, и вот сегодня наконец объявил о том, что совместно с Ники Кнупом (тоже из гугла) открывает Ndea (не путать с Nvidia).

Их цель – найти новую парадигму ИИ, которая сможет обучаться так же эффективно, как человек. Подробности можно посмотреть на сайте.

"Имея эту технологию в руках мы планируем заняться каждой научной проблемой которую она может решить и значительно ускорить научный прогресс".

🔥92👍32❤16👏1

13.1K viewsedited 11:22

Data Secrets

Там в Твиттере нашли лучшее применение новому функционалу Тасок в ChatGPT

😁239🤯13👍11👀5💅4

13.3K views14:56

Data Secrets

Какой вопрос – такой ответ. С вас 200 долларов, кстати

😁273🔥18❤14👌7🦄4🐳3❤‍🔥1

14.3K views17:17

Data Secrets

Там Gwern*, легендарный анонимный исследователь, очень ярко высказался на форуме про o1 и o3. Цитаты достойны вашего внимания:

"Мне кажется мы стали забывать, что главная функция такой модели, как o1, заключается не в ее развертывании, а в генерации обучающих данных для следующей модели. Каждая задача, которую решает o1 – это отправная точка для o3: все ответы, все траектории, по которым проходила o1 в мыслях, могут быть улучшены моделью, которая на них учится.

На самом деле, я вообще удивлен, что OpenAI потрудились развернуть o1-pro, вместо того чтобы сохранить ее в тайне и вложить средства в дополнительные вычисления для обучения o3. (Похоже, именно поэтому Anthropic так и не показали Claude-3.6-opus — модель не «провалилась», они просто решили сохранить ее в тайне и свести к небольшому дешевому, но внезапно ставшему очень умным Claude-3.6-sonnet.)

Если посмотреть на пример AlphaZero, мысль становится очевидной: если бы обычный поиск во время инференса (чем и является ризонинг) работал хорошо, шахматы были бы решены еще в 60-х. Но на самом деле это просто стимулятор, который увеличивает ваш скор, но асимптотирует его с трудом. То есть его нельзя просто масштабировать, нужно использовать другую бОльшую модель чтобы делать поиск меньшей лучше.

Помните, что сказал Альтман? "o3-mini будет намного лучше и при этом намного дешевле o1". Именно поэтому мы можем никогда не увидеть промежуточные модели вендоров, просто потому что деплой – лишняя трата денег. Зачем тратить деньги на обслуживание внешних запросов, если их можно вложить в обучение и скоро получить такую же умную модель, но в 100 раз дешевле?

Так что пусть такие лаборатории, как DeepSeek дальше тратят ресурсы на развертывание ризонеров, которые производят временный эффект. В отличие от OpenAI, им никогда не хватит ресурсов, чтобы дальше участвовать в настоящей гонке, за ASI. "

* Это тот самый, который еще в далеком 2014 предсказал закон масштабирования LLM, то есть, по сути, спрогнозировал будущее ИИ на 10 лет вперед

👍131🤔40🔥21😁12❤9🐳6

14.3K views06:29

Data Secrets

Пользователи Cursor AI начали массово замечать, что ассистент без предупреждения удаляет файлы из проекта

Судя по обсуждениям на сайте ассистента, такое уже случалось, но это были единичные случаи. Последние дни же на это пожаловалась масса людей. Некоторые даже заявляют, что так и не смогли восстановить удаленные файлы, потому что их нет ни в корзине, не в .deleted папках. Куда их девает курсор, непонятно. Есть также сообщения о том, что ассистент может просто удалить половину кода, чтобы пофиксить баг 🧠

Мемологи в Твиттере реагируют незамедлительно

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

😁122🤪24🤯15❤5🔥4🤔3👍1🫡1

13.6K views09:27

2025/07/09 19:52:34
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>