Data Secrets

У Meta вышла громкая работа о новом способе токенизации

Токенизация – вообще одна из ключевых проблем LLM. Именно из-за токенизации модели плохо справляются с математикой. Токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число. При этом токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Отсюда проблемы с элементарными фонетическими задачами вроде подсчета количества букв r в слове strawberry (больше примеров, в которых модельки фейлятся из-за токенизации см. здесь).

Чтобы попытаться решить эти проблемы, Meta предложили в качестве альтернативы токенам обычные байты. Тут надо сказать, что идея вообще-то не новая, еще давно уже выходила похожая token-free LM MambaByte. Но у Meta, во избежании слишком длинных последовательностей битов, впервые повляется динамический энкодинг в патчи.

Эти патчи и служат основными единицами вычисления, и внутри модели решается задача предсказания следующего патча. Патчи сегментируются динамически на основе энтропии следующего байта. Получается, если данные более "предсказуемы", то патчи получаются подлиннее, и наоборот. Однако перед группировкой байты все равно обрабатываются локальным энкодером, аналогично после предсказания следующего патча приходится подключать декодер.

На бечмарках все очень многообещающе: BLT (Byte Latent Transformer) находится на одном уровне или даже немного выше LLama 3 с BPE по перплексии (BPB на графике – это метрика перплексии, не зависяща от токенизатора). При этом подход масштабируется, и исследователям даже удалось обучить токен-фри Llama-3 8B на датасете 1Т токенов, и она оказалась в среднем немного лучше, чем Llama-3 с BPE.

Обязательно почитайте полностью, это очень интересно

👍83🤯27❤14🔥7🤔3

12.5K views13:10

Data Secrets

GUID Partition Table RIP

Доброе воскресное

😁70🫡17☃7👏3🎃2🔥1🍓1

10.5K views05:26

Data Secrets

В EpochAI показали интересную статистику трендов роста параметров в языковых моделях

Смотрите: с 2017 года, года выхода трансфорера, количество параметров в моделях росло очень значительно. Если в GPT-1 их насчитывалось всего 117 миллионов, то уже через два года, в GPT-3, их стало 175 миллиардов, то есть в 1000 раз больше. В GPT-4, которая вышла еще через три года, уже было 1.8 триллиона параметров — еще в 10 раз больше.

Помните ту самую картинку с китом, иллюстрирующим размеры GPT-5, с весенней конференции Microsoft? Долгое время действительно считалось, что количество параметров, как и размер датасета – ключ к масштабированию, и если бы тенденция сохранилась, то сейчас в ведущих моделях было бы около 10 триллионов параметров.

Но реальность оказалась иной: вместо увеличения масштаба модели начали уменьшаться. Например, GPT-4o имеет, предположительно, около 200 миллиардов параметров, что в 8-10 раз меньше GPT-4. Примерно столько же имеет Claude 3.5 Sonnet (прикинуть можно на основе открытых моделей или на основе скорости инференса и цен).

Почему так?

а) Акцент сместился на оптимизацию, потому что компании уже не могли вывозить еще более дорогой инференс в условиях растущего спроса;

б) Теперь у нас есть синтетика, и можно увеличить вычислительную сложность обучения, не увеличивая при этом размер;

в) Мы перешли на другой закон масштабирования (и это, пожалуй, самое важное). C 2020 года предполагалось, что для оптимальной производительности модели нужно поддерживать высокое соотношение параметров к числу обучающих токенов. Однако в 2022 году и в дальнейшем группа исследователей Hoffmann et al. показала новый закон, известный как Chinchilla: оказалось, что вместо увеличения числа параметров можно добиться лучшей производительности, увеличив количество данных, на которых обучается модель (см.график). Правда, сейчас и это выходит на плато, но это уже другая история.

Тем не менее, вряд ли и дальше модели будут уменьшаться такими темпами. Смена законов масштабирования была разовым эффектом, а также довольно очевидно, что нельзя бесконечно уменьшать размер модели, сохраняя высокую производительность. Кроме того, сейчас в приоритете test-time compute scaling, и при этом железо продолжает развиваться, так что большие модели, которые могут работать с длинными цепочками рассуждений и контекстом, снова получают преимущество.

Короче, довольно интересный ресерч у ребят вышел, полностью прочитать можно тут

👍60❤11🔥11

10.6K views13:29

Data Secrets

Понедельник.

😁139❤10👍7🤔5🔥1

9.65K views06:08

Data Secrets

Команды Центрального университета завоевали первые места на Международном конкурсе по ИИ AI Challenge

⚪️ Команды из Центрального университета соревновались с 44 сборными из 65 стран мира в полуфинале трека “Исследователи”. Нужно было решить технические бизнес-кейсы с использованием методов машинного обучения и анализа данных по различным направлениям, например, по металлургии, сельскому хозяйству и инвестициям.

⚪️ Команды из Центрального университета заняли призовые места в треке “Исследователи”. Победителем в направлении “Инвестиции” стала команда “ИИван”: ее участники построили модель временных рядов, которая валидирует данные MOEX и предсказывает движение котировок на временном промежутке в 1 час. На втором месте по направлению “Девелопмент” – сборная “Без приколов”, которая разработала модель скоринга подрядчиков для расчета вероятности “дефолта” и реализовала интерфейс для взаимодействия с ней. Все финалисты и призеры конкурса AI Challenge разделят призовой фонд – 17 млн рублей.

⚪️ В этом году преподаватели Центрального университета уже подготовили команду к победе на первой Международной олимпиаде по ИИ в Болгарии. Сборная с большим отрывом обошла соперников из 39 стран. В 2025 году Центральный университет и Альянс ИИ будут готовить команду к олимпиаде в Китае.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍50🔥26👏13🤯5😁4❤2👻2

10.3K viewsedited 08:55

Data Secrets

1:25

This media is not supported in your browser

VIEW IN TELEGRAM

Ничего необычного, просто новая gemini 2.0 болтает с chatgpt voice

Те самые тарантиновские диалоги из учебников английского

😁90❤11👍5🗿3

10.3K views10:05

Data Secrets

Пора подвести итоги IT-конференции Al Journey, которая стала самой плодотворной на презентации новых продуктов от Сбера. Разработчики выложили в открытый доступ сразу три генеративные модели. Все они прекрасно адаптированы для российского сегмента, так как сразу писались на русском языке, а не адаптировались. В итоге все они максимально стабильные и производительные.

GigaChat Lite нужна для решения самых простых ежедневных задач. Это первая по-настоящему российская open-source модель. Главное преимущество — скорость.

GigaAMv2 — лучшая модель в РФ AI-инструментом для распознавания речи с возможностью допобучения.

GigaEmbeddings была разработана для RAG и других задач, потребляет большой объем ресурсов, но превосходит большинство конкурентов по производительности и надежности.

👍33🔥13❤5🌚2😐1

10.2K views11:04

Data Secrets

Противостояние Илона Маска и OpenAI выходит на новый уровень: теперь стартап пишет гневные разоблачения прямо на своем сайте

Контекст: в 2015, когда OpenAI только открывалась, Маск был одним из основателей и главным инвестором. Затем он из OpenAI ушел, а теперь уже четвертый раз за год пытается их засудить разными исками. Формулировки претензий каждый раз меняются, но главная мысль остается фиксированной: якобы OpenAI не следуют своей миссии и концентрируются на зарабатывании денег, а их намерение стать коммерческой организацией – вообще чистое надувательство инвесторов и пользователей.

OpenAI довольно долгое время мало комментировала ситуацию, но тут они выкатили целую статью на своем сайте под названием "Илон Маск сам хотел сделать OpenAI коммерческой":

➡️ В статье говорится, что Илон с самого начала не хотел делать стартап некоммерческим, а в 2017 году еще раз сам подталкивал глав OpenAI к тому, чтобы все-таки перейти в статус коммерческой организации

➡️ И Альтман (в 2017) с этим согласился, но тут Маск потребовал себе контрольный пакет акций, абсолютный контроль и должность генерального директора

➡️ Конечно, в OpenAI посчитали, что это как-то слишком жирно, и Маску отказали. Тогда он ушел из OpenAI, создал собственную организацию «Open Artificial Intelligence Technologies, Inc.» и говорил OpenAI, что их ждет провал, если они не объединятся с теслой

"Теперь, когда OpenAI является ведущей исследовательской лабораторией ИИ, а Илон управляет конкурирующей ИИ-компанией, он пытается с помощью суда помешать нам эффективно выполнять нашу миссию. Мы с большим уважением относимся к достижениям Илона и благодарны за его ранний вклад в OpenAI, но он должен конкурировать на рынке, а не в зале суда.

Вы не можете подать в суд на AGI."

Ух, ну и страсти, почитайте сами

Please open Telegram to view this post

VIEW IN TELEGRAM

👍51😁23⚡13❤7

9.86K views12:26

Data Secrets

Противостояние Илона Маска и OpenAI выходит на новый уровень: теперь стартап пишет гневные разоблачения прямо на своем сайте Контекст: в 2015, когда OpenAI только открывалась, Маск был одним из основателей и главным инвестором. Затем он из OpenAI ушел, а…

К слову, Маск сегодня поделился тем, что количество веб-запросов «Grok» впервые достигло более 50% от количества запросов «ChapGPT»

Однако пользователи заметили, что на скрине, почему-то, статистика только по Японии 🤷‍♂️

Please open Telegram to view this post

VIEW IN TELEGRAM

😁165🤯6👍2

10.2K views14:17

Data Secrets

2:01

This media is not supported in your browser

VIEW IN TELEGRAM

Meta тем временем продолжают сыпать под елочку крутые релизы

Сегодня они выкатили Apollo (веса, статья) – семейство современных видео-LMM, в которых отдельно прокачаны скиллы понимания длинных видео. Модели могут обрабатывать действительно огромные ролики длительностью до часа, отвечать по ним на вопросы и достаточно точно отслеживать персонажей, смену сцен и тд.

При этом все три релизнутые модели совсем малышки – 1.5B, 3B и 7B. На LongVideoBench в своих весах все они выбивают SOTA (а 3B даже бьет многие модельки покрупнее себя).

Как в Meta такого добились? Просто очень-очень умно перебирали гиперпараметры

😀

Серьезно, они выяснили, что большинство архитектурных и тренировочных трюков, которые работают на мини-модельках, сохраняют свою релевантность при масштабировании до более крупных. Это назвали Scaling Consistency. В итоге обучали 84 варианта моделей (большинство по 500М), на которых перепробовали кучу архитектурных вариаций, сделали выводы и пошли обучать Apollo.

Основные фичи, которые они выделяют и советуют использовать:
- предпочтительнее сохранять равномерное сэмлирования кадров
- использовать комбинированные энкодеры (в Apollo взяли SigLIP-SO400M + InternVideo2)
- добавлять ~10–14% текстовых данных в датасет
- размораживать компоненты модели и обучать их постепенно
- для сжатия использовать Perceiver Resampler

В общем, вы поняли: дедовский гридсерч уже не в моде. Так что пользуемся 🎅

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥55👍19❤5

10.5K viewsedited 17:07

Data Secrets

8 из 12 день адвент-календаря OpenAI: показывают обновления для SearchGPT

➡️ Теперь не обязательно включать поиск вручную, он будет подключаться по мере вашего разговора с GPT, даже в голосовом режиме. При этом прямо в приложении можно кликать на ссылки и открывать превью веб-страниц без перехода в браузер. Даже карты можно смотреть прямо в чате.

➡️ Поиск стал быстрее и умнее

➡️ Все это будет доступно всем фри юзерам

Кроме того, теперь можно использовать GPT как дефолтный поисковик в браузере. Интересно, как там настроение у Perplexity и Google?

P.S. Завтра девдей, будет много всего для разработчиков

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤54☃12😁8👍7❤‍🔥1

10.4K viewsedited 18:02

Data Secrets