У Meta вышла громкая работа о новом способе токенизации
Токенизация – вообще одна из ключевых проблем LLM. Именно из-за токенизации модели плохо справляются с математикой. Токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число. При этом токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Отсюда проблемы с элементарными фонетическими задачами вроде подсчета количества букв r в слове strawberry (больше примеров, в которых модельки фейлятся из-за токенизации см. здесь).
Чтобы попытаться решить эти проблемы, Meta предложили в качестве альтернативы токенам обычные байты. Тут надо сказать, что идея вообще-то не новая, еще давно уже выходила похожая token-free LM MambaByte. Но у Meta, во избежании слишком длинных последовательностей битов, впервые повляется динамический энкодинг в патчи.
Эти патчи и служат основными единицами вычисления, и внутри модели решается задача предсказания следующего патча. Патчи сегментируются динамически на основе энтропии следующего байта. Получается, если данные более "предсказуемы", то патчи получаются подлиннее, и наоборот. Однако перед группировкой байты все равно обрабатываются локальным энкодером, аналогично после предсказания следующего патча приходится подключать декодер.
На бечмарках все очень многообещающе: BLT (Byte Latent Transformer) находится на одном уровне или даже немного выше LLama 3 с BPE по перплексии (BPB на графике – это метрика перплексии, не зависяща от токенизатора). При этом подход масштабируется, и исследователям даже удалось обучить токен-фри Llama-3 8B на датасете 1Т токенов, и она оказалась в среднем немного лучше, чем Llama-3 с BPE.
Обязательно почитайте полностью, это очень интересно
Токенизация – вообще одна из ключевых проблем LLM. Именно из-за токенизации модели плохо справляются с математикой. Токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число. При этом токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Отсюда проблемы с элементарными фонетическими задачами вроде подсчета количества букв r в слове strawberry (больше примеров, в которых модельки фейлятся из-за токенизации см. здесь).
Чтобы попытаться решить эти проблемы, Meta предложили в качестве альтернативы токенам обычные байты. Тут надо сказать, что идея вообще-то не новая, еще давно уже выходила похожая token-free LM MambaByte. Но у Meta, во избежании слишком длинных последовательностей битов, впервые повляется динамический энкодинг в патчи.
Эти патчи и служат основными единицами вычисления, и внутри модели решается задача предсказания следующего патча. Патчи сегментируются динамически на основе энтропии следующего байта. Получается, если данные более "предсказуемы", то патчи получаются подлиннее, и наоборот. Однако перед группировкой байты все равно обрабатываются локальным энкодером, аналогично после предсказания следующего патча приходится подключать декодер.
На бечмарках все очень многообещающе: BLT (Byte Latent Transformer) находится на одном уровне или даже немного выше LLama 3 с BPE по перплексии (BPB на графике – это метрика перплексии, не зависяща от токенизатора). При этом подход масштабируется, и исследователям даже удалось обучить токен-фри Llama-3 8B на датасете 1Т токенов, и она оказалась в среднем немного лучше, чем Llama-3 с BPE.
Обязательно почитайте полностью, это очень интересно
👍83🤯27❤14🔥7🤔3
В EpochAI показали интересную статистику трендов роста параметров в языковых моделях
Смотрите: с 2017 года, года выхода трансфорера, количество параметров в моделях росло очень значительно. Если в GPT-1 их насчитывалось всего 117 миллионов, то уже через два года, в GPT-3, их стало 175 миллиардов, то есть в 1000 раз больше. В GPT-4, которая вышла еще через три года, уже было 1.8 триллиона параметров — еще в 10 раз больше.
Помните ту самую картинку с китом, иллюстрирующим размеры GPT-5, с весенней конференции Microsoft? Долгое время действительно считалось, что количество параметров, как и размер датасета – ключ к масштабированию, и если бы тенденция сохранилась, то сейчас в ведущих моделях было бы около 10 триллионов параметров.
Но реальность оказалась иной: вместо увеличения масштаба модели начали уменьшаться. Например, GPT-4o имеет, предположительно, около 200 миллиардов параметров, что в 8-10 раз меньше GPT-4. Примерно столько же имеет Claude 3.5 Sonnet (прикинуть можно на основе открытых моделей или на основе скорости инференса и цен).
Почему так?
а) Акцент сместился на оптимизацию, потому что компании уже не могли вывозить еще более дорогой инференс в условиях растущего спроса;
б) Теперь у нас есть синтетика, и можно увеличить вычислительную сложность обучения, не увеличивая при этом размер;
в) Мы перешли на другой закон масштабирования (и это, пожалуй, самое важное). C 2020 года предполагалось, что для оптимальной производительности модели нужно поддерживать высокое соотношение параметров к числу обучающих токенов. Однако в 2022 году и в дальнейшем группа исследователей Hoffmann et al. показала новый закон, известный как Chinchilla: оказалось, что вместо увеличения числа параметров можно добиться лучшей производительности, увеличив количество данных, на которых обучается модель (см.график). Правда, сейчас и это выходит на плато, но это уже другая история.
Тем не менее, вряд ли и дальше модели будут уменьшаться такими темпами. Смена законов масштабирования была разовым эффектом, а также довольно очевидно, что нельзя бесконечно уменьшать размер модели, сохраняя высокую производительность. Кроме того, сейчас в приоритете test-time compute scaling, и при этом железо продолжает развиваться, так что большие модели, которые могут работать с длинными цепочками рассуждений и контекстом, снова получают преимущество.
Короче, довольно интересный ресерч у ребят вышел, полностью прочитать можно тут
Смотрите: с 2017 года, года выхода трансфорера, количество параметров в моделях росло очень значительно. Если в GPT-1 их насчитывалось всего 117 миллионов, то уже через два года, в GPT-3, их стало 175 миллиардов, то есть в 1000 раз больше. В GPT-4, которая вышла еще через три года, уже было 1.8 триллиона параметров — еще в 10 раз больше.
Помните ту самую картинку с китом, иллюстрирующим размеры GPT-5, с весенней конференции Microsoft? Долгое время действительно считалось, что количество параметров, как и размер датасета – ключ к масштабированию, и если бы тенденция сохранилась, то сейчас в ведущих моделях было бы около 10 триллионов параметров.
Но реальность оказалась иной: вместо увеличения масштаба модели начали уменьшаться. Например, GPT-4o имеет, предположительно, около 200 миллиардов параметров, что в 8-10 раз меньше GPT-4. Примерно столько же имеет Claude 3.5 Sonnet (прикинуть можно на основе открытых моделей или на основе скорости инференса и цен).
Почему так?
а) Акцент сместился на оптимизацию, потому что компании уже не могли вывозить еще более дорогой инференс в условиях растущего спроса;
б) Теперь у нас есть синтетика, и можно увеличить вычислительную сложность обучения, не увеличивая при этом размер;
в) Мы перешли на другой закон масштабирования (и это, пожалуй, самое важное). C 2020 года предполагалось, что для оптимальной производительности модели нужно поддерживать высокое соотношение параметров к числу обучающих токенов. Однако в 2022 году и в дальнейшем группа исследователей Hoffmann et al. показала новый закон, известный как Chinchilla: оказалось, что вместо увеличения числа параметров можно добиться лучшей производительности, увеличив количество данных, на которых обучается модель (см.график). Правда, сейчас и это выходит на плато, но это уже другая история.
Тем не менее, вряд ли и дальше модели будут уменьшаться такими темпами. Смена законов масштабирования была разовым эффектом, а также довольно очевидно, что нельзя бесконечно уменьшать размер модели, сохраняя высокую производительность. Кроме того, сейчас в приоритете test-time compute scaling, и при этом железо продолжает развиваться, так что большие модели, которые могут работать с длинными цепочками рассуждений и контекстом, снова получают преимущество.
Короче, довольно интересный ресерч у ребят вышел, полностью прочитать можно тут
👍60❤11🔥11
Команды Центрального университета завоевали первые места на Международном конкурсе по ИИ AI Challenge
⚪️ Команды из Центрального университета соревновались с 44 сборными из 65 стран мира в полуфинале трека “Исследователи”. Нужно было решить технические бизнес-кейсы с использованием методов машинного обучения и анализа данных по различным направлениям, например, по металлургии, сельскому хозяйству и инвестициям.
⚪️ Команды из Центрального университета заняли призовые места в треке “Исследователи”. Победителем в направлении “Инвестиции” стала команда “ИИван”: ее участники построили модель временных рядов, которая валидирует данные MOEX и предсказывает движение котировок на временном промежутке в 1 час. На втором месте по направлению “Девелопмент” – сборная “Без приколов”, которая разработала модель скоринга подрядчиков для расчета вероятности “дефолта” и реализовала интерфейс для взаимодействия с ней. Все финалисты и призеры конкурса AI Challenge разделят призовой фонд – 17 млн рублей.
⚪️ В этом году преподаватели Центрального университета уже подготовили команду к победе на первой Международной олимпиаде по ИИ в Болгарии. Сборная с большим отрывом обошла соперников из 39 стран. В 2025 году Центральный университет и Альянс ИИ будут готовить команду к олимпиаде в Китае.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50🔥26👏13🤯5😁4❤2👻2
This media is not supported in your browser
VIEW IN TELEGRAM
Ничего необычного, просто новая gemini 2.0 болтает с chatgpt voice
Те самые тарантиновские диалоги из учебников английского
Те самые тарантиновские диалоги из учебников английского
😁90❤11👍5🗿3
Пора подвести итоги IT-конференции Al Journey, которая стала самой плодотворной на презентации новых продуктов от Сбера. Разработчики выложили в открытый доступ сразу три генеративные модели. Все они прекрасно адаптированы для российского сегмента, так как сразу писались на русском языке, а не адаптировались. В итоге все они максимально стабильные и производительные.
GigaChat Lite нужна для решения самых простых ежедневных задач. Это первая по-настоящему российская open-source модель. Главное преимущество — скорость.
GigaAMv2 — лучшая модель в РФ AI-инструментом для распознавания речи с возможностью допобучения.
GigaEmbeddings была разработана для RAG и других задач, потребляет большой объем ресурсов, но превосходит большинство конкурентов по производительности и надежности.
GigaChat Lite нужна для решения самых простых ежедневных задач. Это первая по-настоящему российская open-source модель. Главное преимущество — скорость.
GigaAMv2 — лучшая модель в РФ AI-инструментом для распознавания речи с возможностью допобучения.
GigaEmbeddings была разработана для RAG и других задач, потребляет большой объем ресурсов, но превосходит большинство конкурентов по производительности и надежности.
👍33🔥13❤5🌚2😐1
Противостояние Илона Маска и OpenAI выходит на новый уровень: теперь стартап пишет гневные разоблачения прямо на своем сайте
Контекст: в 2015, когда OpenAI только открывалась, Маск был одним из основателей и главным инвестором. Затем он из OpenAI ушел, а теперь уже четвертый раз за год пытается их засудить разными исками. Формулировки претензий каждый раз меняются, но главная мысль остается фиксированной: якобы OpenAI не следуют своей миссии и концентрируются на зарабатывании денег, а их намерение стать коммерческой организацией – вообще чистое надувательство инвесторов и пользователей.
OpenAI довольно долгое время мало комментировала ситуацию, но тут они выкатили целую статью на своем сайте под названием "Илон Маск сам хотел сделать OpenAI коммерческой":
➡️ В статье говорится, что Илон с самого начала не хотел делать стартап некоммерческим, а в 2017 году еще раз сам подталкивал глав OpenAI к тому, чтобы все-таки перейти в статус коммерческой организации
➡️ И Альтман (в 2017) с этим согласился, но тут Маск потребовал себе контрольный пакет акций, абсолютный контроль и должность генерального директора
➡️ Конечно, в OpenAI посчитали, что это как-то слишком жирно, и Маску отказали. Тогда он ушел из OpenAI, создал собственную организацию «Open Artificial Intelligence Technologies, Inc.» и говорил OpenAI, что их ждет провал, если они не объединятся с теслой
Ух, ну и страсти, почитайте сами
Контекст: в 2015, когда OpenAI только открывалась, Маск был одним из основателей и главным инвестором. Затем он из OpenAI ушел, а теперь уже четвертый раз за год пытается их засудить разными исками. Формулировки претензий каждый раз меняются, но главная мысль остается фиксированной: якобы OpenAI не следуют своей миссии и концентрируются на зарабатывании денег, а их намерение стать коммерческой организацией – вообще чистое надувательство инвесторов и пользователей.
OpenAI довольно долгое время мало комментировала ситуацию, но тут они выкатили целую статью на своем сайте под названием "Илон Маск сам хотел сделать OpenAI коммерческой":
"Теперь, когда OpenAI является ведущей исследовательской лабораторией ИИ, а Илон управляет конкурирующей ИИ-компанией, он пытается с помощью суда помешать нам эффективно выполнять нашу миссию. Мы с большим уважением относимся к достижениям Илона и благодарны за его ранний вклад в OpenAI, но он должен конкурировать на рынке, а не в зале суда.
Вы не можете подать в суд на AGI."
Ух, ну и страсти, почитайте сами
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51😁23⚡13❤7
Data Secrets
Противостояние Илона Маска и OpenAI выходит на новый уровень: теперь стартап пишет гневные разоблачения прямо на своем сайте Контекст: в 2015, когда OpenAI только открывалась, Маск был одним из основателей и главным инвестором. Затем он из OpenAI ушел, а…
К слову, Маск сегодня поделился тем, что количество веб-запросов «Grok» впервые достигло более 50% от количества запросов «ChapGPT»
Однако пользователи заметили, что на скрине, почему-то, статистика только по Японии🤷♂️
Однако пользователи заметили, что на скрине, почему-то, статистика только по Японии
Please open Telegram to view this post
VIEW IN TELEGRAM
😁165🤯6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Meta тем временем продолжают сыпать под елочку крутые релизы
Сегодня они выкатили Apollo (веса, статья) – семейство современных видео-LMM, в которых отдельно прокачаны скиллы понимания длинных видео. Модели могут обрабатывать действительно огромные ролики длительностью до часа, отвечать по ним на вопросы и достаточно точно отслеживать персонажей, смену сцен и тд.
При этом все три релизнутые модели совсем малышки – 1.5B, 3B и 7B. На LongVideoBench в своих весах все они выбивают SOTA (а 3B даже бьет многие модельки покрупнее себя).
Как в Meta такого добились? Просто очень-очень умно перебирали гиперпараметры😀
Серьезно, они выяснили, что большинство архитектурных и тренировочных трюков, которые работают на мини-модельках, сохраняют свою релевантность при масштабировании до более крупных. Это назвали Scaling Consistency. В итоге обучали 84 варианта моделей (большинство по 500М), на которых перепробовали кучу архитектурных вариаций, сделали выводы и пошли обучать Apollo.
Основные фичи, которые они выделяют и советуют использовать:
- предпочтительнее сохранять равномерное сэмлирования кадров
- использовать комбинированные энкодеры (в Apollo взяли SigLIP-SO400M + InternVideo2)
- добавлять ~10–14% текстовых данных в датасет
- размораживать компоненты модели и обучать их постепенно
- для сжатия использовать Perceiver Resampler
В общем, вы поняли: дедовский гридсерч уже не в моде. Так что пользуемся🎅
Сегодня они выкатили Apollo (веса, статья) – семейство современных видео-LMM, в которых отдельно прокачаны скиллы понимания длинных видео. Модели могут обрабатывать действительно огромные ролики длительностью до часа, отвечать по ним на вопросы и достаточно точно отслеживать персонажей, смену сцен и тд.
При этом все три релизнутые модели совсем малышки – 1.5B, 3B и 7B. На LongVideoBench в своих весах все они выбивают SOTA (а 3B даже бьет многие модельки покрупнее себя).
Как в Meta такого добились? Просто очень-очень умно перебирали гиперпараметры
Серьезно, они выяснили, что большинство архитектурных и тренировочных трюков, которые работают на мини-модельках, сохраняют свою релевантность при масштабировании до более крупных. Это назвали Scaling Consistency. В итоге обучали 84 варианта моделей (большинство по 500М), на которых перепробовали кучу архитектурных вариаций, сделали выводы и пошли обучать Apollo.
Основные фичи, которые они выделяют и советуют использовать:
- предпочтительнее сохранять равномерное сэмлирования кадров
- использовать комбинированные энкодеры (в Apollo взяли SigLIP-SO400M + InternVideo2)
- добавлять ~10–14% текстовых данных в датасет
- размораживать компоненты модели и обучать их постепенно
- для сжатия использовать Perceiver Resampler
В общем, вы поняли: дедовский гридсерч уже не в моде. Так что пользуемся
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥55👍19❤5
8 из 12 день адвент-календаря OpenAI: показывают обновления для SearchGPT
➡️ Теперь не обязательно включать поиск вручную, он будет подключаться по мере вашего разговора с GPT, даже в голосовом режиме. При этом прямо в приложении можно кликать на ссылки и открывать превью веб-страниц без перехода в браузер. Даже карты можно смотреть прямо в чате.
➡️ Поиск стал быстрее и умнее
➡️ Все это будет доступно всем фри юзерам
Кроме того, теперь можно использовать GPT как дефолтный поисковик в браузере. Интересно, как там настроение у Perplexity и Google?
P.S. Завтра девдей, будет много всего для разработчиков
Кроме того, теперь можно использовать GPT как дефолтный поисковик в браузере. Интересно, как там настроение у Perplexity и Google?
P.S. Завтра девдей, будет много всего для разработчиков
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤54☃12😁8👍7❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Google выпустили Veo 2, и все трубят, что она круче SORA
По тестам от самих Google, генерации Veo пользователи предпочитали генерациям SORA в 58.8% случаев. Ролики действительно поражают (особенно примеры с помидором, спагетти и картами). При этом некоторые из них пользовательские, и те же промпты в соре честно отрабатывают хуже.
Длина генераций – 8 секунд, а разрешение может доходить до 4К! В лист ожидания можно записаться тут, вроде кому-то уже даже начали раздавать доступ
Блогпост с кучей примеров
По тестам от самих Google, генерации Veo пользователи предпочитали генерациям SORA в 58.8% случаев. Ролики действительно поражают (особенно примеры с помидором, спагетти и картами). При этом некоторые из них пользовательские, и те же промпты в соре честно отрабатывают хуже.
Длина генераций – 8 секунд, а разрешение может доходить до 4К! В лист ожидания можно записаться тут, вроде кому-то уже даже начали раздавать доступ
Блогпост с кучей примеров
1🔥58👍10💘6🎄2