Forwarded from rizzearch
Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models
помимо дипсика и квена, недавно успели еще китайцы выкатить очередную ллм - минимакс, уже по традиции которая является МоЕ + вводит гибрид софтмакс и линейного аттеншнов (кстати о махинациях с аттеншном мы уже ни раз писали)
при том второй аттеншн не абы какой, а лайтнинг (не тот слава Богу). в минимаксе используется первая версия, а почти одновременно с этой моделькой успела выйти и вторая версия
в чем вообще суть - вот у нас есть
softmax(Q @ K^T) @ V, где иннер продукт между запросами и ключами выдает матрицу seq_len x seq_len, что довольно много
→ приходит в голову идея линеаризовать аттеншн, то есть делаем просто из softmax(Q @ K^T) ~= phi(Q) @ phi(K^T) ⇒ [phi(Q) @ phi(K^T)] @ V, что можно переписать как из left product в right product
phi(Q) @ [ phi(K^T) @ V ], где не будем напрямую высчитывать seq_len x seq_len матрицу, а будет только hidden_dim x hidden_dim. profit?
не совсем, когда в дело приходит понятие каузальности, ибо тогда формула становится (phi убрал для удобства) снова left product
[Q @ K^T * causal_mask] @ V
снова получаем seq_len x seq_len момент, это дело можно исправить алгоритмом Linear Attention Right Product (на предпоследней фотке), но тогда встревает кумулятивная сумма, которую не распараллелить
ну и авторы довольно красивое решение предлагают в виде того, что как раз и называется Lightning Attention
- во-первых, го вычислять аттеншн по блокам, по которым и будет идти цикл как обычно
- а в каждом блоке будем одновременно вычислять аттеншны и первым, и вторым способом: через left product с каузальной маской будет вычисляться intra block (как я понял потому что он находится рядом с диагональными элементами как раз, где и нужна каузальная маска), а через right product inter block (который/которые не соприкасаются с диагональю и можно без каузальной маски их использовать, да еще и этот блок вычислить можно через накопленную кумулятивную сумму KV), а в конце просто просуммируем, не забыв обновить KV
- тут получаем трейдофф между лево- и правоматричным умножениями, который еще и к тому же нетяжело под хардвейр оптимизировать - перетаскивать поочередно блоки между High Bandwidth Memory & SRAM (последняя картинка для иллюстрации отсюда, по всем правилам - чем больше по памяти вмещается, тем медленее работает)
вторая же версия отличается тем, что в каузальную маску добавляется гипер, контролирующий меру затухания информации между токенами (похожее делали в ретнете и второй мамбе), по формулам конечно присутствует не только в маске для сохранения контистенси в реккурентных выражениях (хоть этот вариант алгоритма был и в первой версии в аппендиксе)
реализовано все на тритоне, метод в принципе применим не только к их ТрансНормеру
👀 link, code
помимо дипсика и квена, недавно успели еще китайцы выкатить очередную ллм - минимакс, уже по традиции которая является МоЕ + вводит гибрид софтмакс и линейного аттеншнов (кстати о махинациях с аттеншном мы уже ни раз писали)
при том второй аттеншн не абы какой, а лайтнинг (не тот слава Богу). в минимаксе используется первая версия, а почти одновременно с этой моделькой успела выйти и вторая версия
в чем вообще суть - вот у нас есть
softmax(Q @ K^T) @ V, где иннер продукт между запросами и ключами выдает матрицу seq_len x seq_len, что довольно много
→ приходит в голову идея линеаризовать аттеншн, то есть делаем просто из softmax(Q @ K^T) ~= phi(Q) @ phi(K^T) ⇒ [phi(Q) @ phi(K^T)] @ V, что можно переписать как из left product в right product
phi(Q) @ [ phi(K^T) @ V ], где не будем напрямую высчитывать seq_len x seq_len матрицу, а будет только hidden_dim x hidden_dim. profit?
не совсем, когда в дело приходит понятие каузальности, ибо тогда формула становится (phi убрал для удобства) снова left product
[Q @ K^T * causal_mask] @ V
снова получаем seq_len x seq_len момент, это дело можно исправить алгоритмом Linear Attention Right Product (на предпоследней фотке), но тогда встревает кумулятивная сумма, которую не распараллелить
ну и авторы довольно красивое решение предлагают в виде того, что как раз и называется Lightning Attention
- во-первых, го вычислять аттеншн по блокам, по которым и будет идти цикл как обычно
- а в каждом блоке будем одновременно вычислять аттеншны и первым, и вторым способом: через left product с каузальной маской будет вычисляться intra block (как я понял потому что он находится рядом с диагональными элементами как раз, где и нужна каузальная маска), а через right product inter block (который/которые не соприкасаются с диагональю и можно без каузальной маски их использовать, да еще и этот блок вычислить можно через накопленную кумулятивную сумму KV), а в конце просто просуммируем, не забыв обновить KV
- тут получаем трейдофф между лево- и правоматричным умножениями, который еще и к тому же нетяжело под хардвейр оптимизировать - перетаскивать поочередно блоки между High Bandwidth Memory & SRAM (последняя картинка для иллюстрации отсюда, по всем правилам - чем больше по памяти вмещается, тем медленее работает)
вторая же версия отличается тем, что в каузальную маску добавляется гипер, контролирующий меру затухания информации между токенами (похожее делали в ретнете и второй мамбе), по формулам конечно присутствует не только в маске для сохранения контистенси в реккурентных выражениях (хоть этот вариант алгоритма был и в первой версии в аппендиксе)
реализовано все на тритоне, метод в принципе применим не только к их ТрансНормеру
👀 link, code
Forwarded from Dealer.AI
Исследование Anomalous tokens в DeepSeek v3/r1.
«Аномальные», «сбойные» или «невыговариваемые» токены в LLM — это те, которые вызывают странное поведение или иным образом не ведут себя как обычный текст.
Вепрые это было обнаружено в работе по GPT 2,3. Обнаружение таких токенов помогает понять причины галлюцинаций и сбивчевого поведения, а также потенциально, точечно влиять на устойчивость путем целевого дообучения таких токенов. Что порождает стабильность и ожидаемое поведение.
Автор выделяет токены довольно просто - при помощи промптинга. В работе исследуются: процесс токены, фрагментарные токены (раскрываются в длинном контексте) , Namee токены и аналоги, non English токены и "специальные" токены и др. Советую прочитать исследование, там итак все доступно описано:
https://outsidetext.substack.com/p/anomalous-tokens-in-deepseek-v3-and
Upd. В комментариях подсказывают статью.
«Аномальные», «сбойные» или «невыговариваемые» токены в LLM — это те, которые вызывают странное поведение или иным образом не ведут себя как обычный текст.
Вепрые это было обнаружено в работе по GPT 2,3. Обнаружение таких токенов помогает понять причины галлюцинаций и сбивчевого поведения, а также потенциально, точечно влиять на устойчивость путем целевого дообучения таких токенов. Что порождает стабильность и ожидаемое поведение.
Автор выделяет токены довольно просто - при помощи промптинга. В работе исследуются: процесс токены, фрагментарные токены (раскрываются в длинном контексте) , Namee токены и аналоги, non English токены и "специальные" токены и др. Советую прочитать исследование, там итак все доступно описано:
https://outsidetext.substack.com/p/anomalous-tokens-in-deepseek-v3-and
Upd. В комментариях подсказывают статью.
Substack
Anomalous Tokens in DeepSeek-V3 and r1
A first attempt at identifying and cataloging DeepSeek's glitched tokens
О неочевидном поведении DPO и улучшениях SMPO в новой SLM от VIkhrModels
Недавно вышедшая QVikhr-2.5-1.5B-Instruct-SMPO, отличается не только лучшим качеством среди наших небольших тюнов, сопоставимым местами с 7B моделями, но и улучшениями в нашем методе алайнмента SMPO.
В ходе большого количества экспериментов я заметил, что офлайновая DPO-like (любая, в том числе и SMPO, ORPO, SimPO и тд) тренировка, часто при обучении может приводить к вырожденным решениям, например, таким, где модель теряет EOS токен при генерации и уходит в повторения или просто в генерацию сломанных токенов.
После небольшого расследования выяснилось, что частично такое поведение объяснимо поведением логарифма при вычислении логпробов токенов (картинка 1), которые в свою очередь участвуют в вычислении ревордов, разница между которыми и оптимизируется в DPO. Вычисляя логарифм чисел в районе 0, вы легко можете получить неограниченное падение логпроба в минус бесконечность. В случае DPO вы эти логпробы потом складываете, в случае SMPO они усредяются по всему комплишену. И в том и в другом случае, вы не спасаетесь от возможных значений-выбросов на конкретных токенах.
Если говорить более простыми словами - если ваш rejected содержит какието очевидные закономерности в токенах, которые его отличают от chosen, то модель через DPO может научится занижать логпробы именно этих токенов в минус бесконечность (т.е. обнулять вероятность) и выигрывать тем самым objective DPO, при этом для более "умных" последовательностей токенов, которые вы хотели бы тоже выучить, оптимизация может вобще не произойти, приводя к довольно тупым результатам, частое из которых это занизить логпроб EOS токена на всех rejected, тем самым почти уничтожив вероятность его генерации на OOD примерах - получаем проблему бесконечных повторений.
Конечно, такое поведение связано с плохой регуляризацией в RL. Выбор меньшего lr, увеличение гипермараметра beta (в dpo), использование KL (как в DPO) или rejected и chosen SFT амортизации (как в SMPO), лучший выбор модели (какие-то меньше подвержены), использование model merging между SFT и PO стадиями тренировки, в целом обучение не до конца, частично помогает бороться с таким хаком обжектива. При тренировке Vikhr-Nemo было проведено немало экспериментов с гиперпараметрами, но проблема не была полностью вылечена.
В итоге, для тренировки наших следующих моделей мы теперь используем модифицированную версию SMPO (картинка 2), в которой было решено ввести штраф на занижение EOS токена для rejected комплишенов, а также сделать винзоризацию и клиппинг экстремальных значений логпробов, что позволило частично решить проблему нежелательного переобучения.
Модифицированный SMPO и конфиги обучения уже доступны в нашей библиотеке Effective LLM Alignment
Недавно вышедшая QVikhr-2.5-1.5B-Instruct-SMPO, отличается не только лучшим качеством среди наших небольших тюнов, сопоставимым местами с 7B моделями, но и улучшениями в нашем методе алайнмента SMPO.
В ходе большого количества экспериментов я заметил, что офлайновая DPO-like (любая, в том числе и SMPO, ORPO, SimPO и тд) тренировка, часто при обучении может приводить к вырожденным решениям, например, таким, где модель теряет EOS токен при генерации и уходит в повторения или просто в генерацию сломанных токенов.
После небольшого расследования выяснилось, что частично такое поведение объяснимо поведением логарифма при вычислении логпробов токенов (картинка 1), которые в свою очередь участвуют в вычислении ревордов, разница между которыми и оптимизируется в DPO. Вычисляя логарифм чисел в районе 0, вы легко можете получить неограниченное падение логпроба в минус бесконечность. В случае DPO вы эти логпробы потом складываете, в случае SMPO они усредяются по всему комплишену. И в том и в другом случае, вы не спасаетесь от возможных значений-выбросов на конкретных токенах.
Если говорить более простыми словами - если ваш rejected содержит какието очевидные закономерности в токенах, которые его отличают от chosen, то модель через DPO может научится занижать логпробы именно этих токенов в минус бесконечность (т.е. обнулять вероятность) и выигрывать тем самым objective DPO, при этом для более "умных" последовательностей токенов, которые вы хотели бы тоже выучить, оптимизация может вобще не произойти, приводя к довольно тупым результатам, частое из которых это занизить логпроб EOS токена на всех rejected, тем самым почти уничтожив вероятность его генерации на OOD примерах - получаем проблему бесконечных повторений.
Конечно, такое поведение связано с плохой регуляризацией в RL. Выбор меньшего lr, увеличение гипермараметра beta (в dpo), использование KL (как в DPO) или rejected и chosen SFT амортизации (как в SMPO), лучший выбор модели (какие-то меньше подвержены), использование model merging между SFT и PO стадиями тренировки, в целом обучение не до конца, частично помогает бороться с таким хаком обжектива. При тренировке Vikhr-Nemo было проведено немало экспериментов с гиперпараметрами, но проблема не была полностью вылечена.
В итоге, для тренировки наших следующих моделей мы теперь используем модифицированную версию SMPO (картинка 2), в которой было решено ввести штраф на занижение EOS токена для rejected комплишенов, а также сделать винзоризацию и клиппинг экстремальных значений логпробов, что позволило частично решить проблему нежелательного переобучения.
Модифицированный SMPO и конфиги обучения уже доступны в нашей библиотеке Effective LLM Alignment
NLP Wanderer
О неочевидном поведении DPO и улучшениях SMPO в новой SLM от VIkhrModels Недавно вышедшая QVikhr-2.5-1.5B-Instruct-SMPO, отличается не только лучшим качеством среди наших небольших тюнов, сопоставимым местами с 7B моделями, но и улучшениями в нашем методе…
Вспомнил, что такое поведение, как в посте сверху, это одна из форм того что в репорте phi-4 назвали pivotal tokens (картинка 1), а в cDPO - critical tokens (картинка 2). И там и там используют это еще чтобы собирать более хитрые preference пары и рассуждают о таких токенах как о том, что направляет генерацию модели в сторону ошибки или правильного ответа.
Конечно врятли это все супер интересно в контексте существования пайплайнов онлайн RL с проверяемыми ревордами (GRPO из DeepSeek), да и впринципе врятли ктото именно таким заниматься станет специально, но как минимум дает больше понимания о том как именно LLM приходят к определенному результату и что на него можно довольно сильно влиять подобрав нужные токены.
Конечно врятли это все супер интересно в контексте существования пайплайнов онлайн RL с проверяемыми ревордами (GRPO из DeepSeek), да и впринципе врятли ктото именно таким заниматься станет специально, но как минимум дает больше понимания о том как именно LLM приходят к определенному результату и что на него можно довольно сильно влиять подобрав нужные токены.
Forwarded from Старший Авгур
Бенч 10/10, спасибо Игорю.
http://platinum-bench.csail.mit.edu/
Люди собрали чуть-чуть простых задач с мега-супер-пупер правильными ответами, и оценивают стабильность моделек.
В такой постановке даже древнющий Navigate из BigBench'а внезапно становится хорошо разделяющей задачей.
Статью можно не читать, можно просто поштырить в ошибки.
http://platinum-bench.csail.mit.edu/
Люди собрали чуть-чуть простых задач с мега-супер-пупер правильными ответами, и оценивают стабильность моделек.
В такой постановке даже древнющий Navigate из BigBench'а внезапно становится хорошо разделяющей задачей.
Статью можно не читать, можно просто поштырить в ошибки.
Так как эсперимент, пока качество не очень в сложных кейсах, но мы научились работать с нативным function calling, собирать собственные датасеты для него и запускаться на vllm с openai-like интерфейсов для тул-колов
Forwarded from Vikhr models
NLP Wanderer
Пока я готовлю некоторый основательный материал по распределенному обучению (вот, теперь я вам его пообещал, придется сделать...) , можете посмотреть отличную библиотеку picotron с реализацией 4-D параллелизма на чистом torch.distributed от Huggingface, Кроме…
Вобще, все основные идеи паралелизма Huggingface за меня уже описали в удобном формате мини-курса (примерно как я и хотел), так же на основе примеров из Picotron
https://huggingface.co/spaces/nanotron/ultrascale-playbook
https://huggingface.co/spaces/nanotron/ultrascale-playbook
huggingface.co
The Ultra-Scale Playbook - a Hugging Face Space by nanotron
The ultimate guide to training LLM on large GPU Clusters
NLP Wanderer
Вобще, все основные идеи паралелизма Huggingface за меня уже описали в удобном формате мини-курса (примерно как я и хотел), так же на основе примеров из Picotron https://huggingface.co/spaces/nanotron/ultrascale-playbook
Кстати, в этой же статье очень много интересных визуализаций и даже интерактивных инструментов, вот например, инструмент расчитывающий потребление памяти при обучении в зависимости от конфигурации и паралеллизма.
В самой статье они упоминают некоторые формулы которые были использованы для расчетов, что так же просто невероятно полезно для понимания трансформеров как архитектуры, вобщем всем надо прочитать хотябы по диагонали.
P.S. Отдельный респект авторам за то, что каждый раздел представлен так же и в аудио формате NotebookLM, т.е, подкаста, мне кажется, именно так должны выглядеть современные курсы (желательно в вузах) - интерактивность, структурированность, разные варианты получения информации (напоминаю, что еще есть и видео сопровождение на ютубе с кодом).
В самой статье они упоминают некоторые формулы которые были использованы для расчетов, что так же просто невероятно полезно для понимания трансформеров как архитектуры, вобщем всем надо прочитать хотябы по диагонали.
P.S. Отдельный респект авторам за то, что каждый раздел представлен так же и в аудио формате NotebookLM, т.е, подкаста, мне кажется, именно так должны выглядеть современные курсы (желательно в вузах) - интерактивность, структурированность, разные варианты получения информации (напоминаю, что еще есть и видео сопровождение на ютубе с кодом).
huggingface.co
Predict Memory - a Hugging Face Space by nanotron
Discover amazing ML apps made by the community
Forwarded from Борис опять
В общем, коротко: SigLIP 2 это лучший на текущий момент CLIP.
К нему приделали все идеи из разных self-supervised методов современного CV и получилось хорошо:
1. Self-distillation при обучении как в DINO/DINOv2. Модель-ученик видит только локальный кроп изображения, модель-учитель (ema от обучаемой модели) глобальный кроп. Так что модель учится по деталям получать те же репрезентации, что и по всей картинке. Это, например, заставляет модель видя нос собаки мысленно "достраивать" всю собаку.
2. Маскировка патчей, что ставит некоторую задачу реконструкции, как в MAE (который Masked Autoencoders от FAIR).
3. Декодер. Прямо при обучении заставляют модель генерировать подписи, ббоксы и подписи к ббоксам. Это, по идее, самое важное: напрямую учат модель связи деталей изображения и текста.
Все это должно полечить вечную проблему клипов, что они хорошо понимают на уровне изображения и плохо понимают детали. Таким образом прошло долгожданное объединение contrastive learning и self supervised подходов.
Ещё подвезли версию устойчивую к разным разрешениям и размерам изображений, а так же мультиязычность.
Это конечно Франкенштейн с несколькими лоссами и стадиями тренировки, так что bitter lesson еще придет, но очень круто.
Короче если нужны какие-то эмбеддинги изображений и текстов берем с полки SigLIP2.
Так же ждем прокачанные энкодеры изображений во всех VLM.
К нему приделали все идеи из разных self-supervised методов современного CV и получилось хорошо:
1. Self-distillation при обучении как в DINO/DINOv2. Модель-ученик видит только локальный кроп изображения, модель-учитель (ema от обучаемой модели) глобальный кроп. Так что модель учится по деталям получать те же репрезентации, что и по всей картинке. Это, например, заставляет модель видя нос собаки мысленно "достраивать" всю собаку.
2. Маскировка патчей, что ставит некоторую задачу реконструкции, как в MAE (который Masked Autoencoders от FAIR).
3. Декодер. Прямо при обучении заставляют модель генерировать подписи, ббоксы и подписи к ббоксам. Это, по идее, самое важное: напрямую учат модель связи деталей изображения и текста.
Все это должно полечить вечную проблему клипов, что они хорошо понимают на уровне изображения и плохо понимают детали. Таким образом прошло долгожданное объединение contrastive learning и self supervised подходов.
Ещё подвезли версию устойчивую к разным разрешениям и размерам изображений, а так же мультиязычность.
Это конечно Франкенштейн с несколькими лоссами и стадиями тренировки, так что bitter lesson еще придет, но очень круто.
Короче если нужны какие-то эмбеддинги изображений и текстов берем с полки SigLIP2.
Так же ждем прокачанные энкодеры изображений во всех VLM.
Просто тут пусть будет, для общего понимания, что такой LLM контент хоть и выигрыает в SbS тесте против человеческого (чаще всего), но конечный продукт as is из него не очень, без хороших пайплайнов обработки.
ИМХО, это же пока относится и ко всяким DeepResearch вариациям, но двигаемся в нужном направлении🤗
ИМХО, это же пока относится и ко всяким DeepResearch вариациям, но двигаемся в нужном направлении🤗
Forwarded from Reliable ML
Почему во времена AI-революции стоит быть осторожным?
Заметки на полях
Решила тут Ирина почитать последние актуальные книги по GenAI - и по внедрению в прод, и про разное менеджерско-стратегическое. Нашлось как всякое интересное (могу потом сделать обзор, если интересно), так и очень интересное.
Например, книга Chief AI Officer Handbook от Packt Publishing. Которую уже после 1й главы начинаешь подозревать в чем-то нехорошем: уж слишком подозрительно структурирован текст, идеальным языком написаны итоги каждого раздела, а главное - уж больно бессмысленно все это в совокупности. До последнего не хотелось верить, что в такое издательство может проникнуть книга, так неприкрыто написанная LLM/ChatGPT, но более детальный разбор показал, что так оно и есть.
Грусть, возмущение и мысли о том, что бедным издательствам теперь будет трудно, и надо что-то менять, чтобы продолжать оставаться ценными для читаталей. А нам, читателям, тоже надо быть начеку и - если мы хотим получать действительно ценную информацию - уметь отличать сгенерированную LLM инфу от человеческой. Уже даже исследования появляются на тему того, что у человека это неплохо получается - лучше алгоритмов.
В голове - с учетом статей - собираются вот такие критерии для идентификации LLM-подставы:
- Очень характерный стиль изложения: выхолощенная, предсказуемая структура, с четкими абзацами и пошаговым изложением, где жирным выделены главные резюмирующие мысли (в начале каждого абзаца).
- Заключения всегда аккуратные, оптимистичные и резюмирующие
- Часто используются определенные слова. Судя по статье, например, vibrant, crucial, significantly, etc. А по личным наблюдениям, можно даже найти следы промптов в тексте - например step-by-step в заголовках книги про Chief AI Officer.
- Отсутствие понятного посыла или новых/интересных для читателя мыслей. Хотя как единственный критерий это, конечно, не работает. Всякие книги встречаются.
- Фактура спорная, неверная или очень общая. Пример критерия с высоким весом - ссылки на литературу ведут на несуществующие страницы.
- Ни одной (или мало) схем в тексте. У авторов-людей почти всегда есть потребность как-то визуально структурировать и показать наглядно мысли, которые они передают в тексте. Для LLM-текста - человек должен заморочиться отдельным промптом, чтобы собрать подобное. А возможно, даже осмыслить тот текст, который ему написала модель. Это уже существенно отдалит его от полностью сгенеренного.
Есть ли у вас что добавить к списку критериев? Не дадим LLM захватить литературу!
Вот такой вот дивный новый мир. На фоне размышлений о будущем после книги про AI Officers мне вспоминается история из великого башорга. Для тех, кто еще помнит😄
На картинке - скрин из книги с заголовком с кусочком промпта.
Ваш @Reliable ML
#business #мысли #reliable_ml #llm
Заметки на полях
Решила тут Ирина почитать последние актуальные книги по GenAI - и по внедрению в прод, и про разное менеджерско-стратегическое. Нашлось как всякое интересное (могу потом сделать обзор, если интересно), так и очень интересное.
Например, книга Chief AI Officer Handbook от Packt Publishing. Которую уже после 1й главы начинаешь подозревать в чем-то нехорошем: уж слишком подозрительно структурирован текст, идеальным языком написаны итоги каждого раздела, а главное - уж больно бессмысленно все это в совокупности. До последнего не хотелось верить, что в такое издательство может проникнуть книга, так неприкрыто написанная LLM/ChatGPT, но более детальный разбор показал, что так оно и есть.
Грусть, возмущение и мысли о том, что бедным издательствам теперь будет трудно, и надо что-то менять, чтобы продолжать оставаться ценными для читаталей. А нам, читателям, тоже надо быть начеку и - если мы хотим получать действительно ценную информацию - уметь отличать сгенерированную LLM инфу от человеческой. Уже даже исследования появляются на тему того, что у человека это неплохо получается - лучше алгоритмов.
В голове - с учетом статей - собираются вот такие критерии для идентификации LLM-подставы:
- Очень характерный стиль изложения: выхолощенная, предсказуемая структура, с четкими абзацами и пошаговым изложением, где жирным выделены главные резюмирующие мысли (в начале каждого абзаца).
- Заключения всегда аккуратные, оптимистичные и резюмирующие
- Часто используются определенные слова. Судя по статье, например, vibrant, crucial, significantly, etc. А по личным наблюдениям, можно даже найти следы промптов в тексте - например step-by-step в заголовках книги про Chief AI Officer.
- Отсутствие понятного посыла или новых/интересных для читателя мыслей. Хотя как единственный критерий это, конечно, не работает. Всякие книги встречаются.
- Фактура спорная, неверная или очень общая. Пример критерия с высоким весом - ссылки на литературу ведут на несуществующие страницы.
- Ни одной (или мало) схем в тексте. У авторов-людей почти всегда есть потребность как-то визуально структурировать и показать наглядно мысли, которые они передают в тексте. Для LLM-текста - человек должен заморочиться отдельным промптом, чтобы собрать подобное. А возможно, даже осмыслить тот текст, который ему написала модель. Это уже существенно отдалит его от полностью сгенеренного.
Есть ли у вас что добавить к списку критериев? Не дадим LLM захватить литературу!
Вот такой вот дивный новый мир. На фоне размышлений о будущем после книги про AI Officers мне вспоминается история из великого башорга. Для тех, кто еще помнит
На картинке - скрин из книги с заголовком с кусочком промпта.
Ваш @Reliable ML
#business #мысли #reliable_ml #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from ML Underhood
YandexGPT 5 уже в опенсорсе и Алисе
Сегодня Яндекс показал миру новое поколение больших языковых моделей — YandexGPT 5. Старшая модель YandexGPT 5 Pro доступна в чате с Алисой и Yandex Cloud через API. Ну а претрейн-версия младшей модели YandexGPT 5 Lite Pretrain — уже лежит на Hugging Face.
Все подробности о процессе обучения можно прочитать в статье на Хабре. А в этом посте — главные факты о свежей опенсорсной модели Яндекса.
YandexGPT 5 Lite Pretrain — модель на 8 миллиардов параметров с длиной контекста 32 тысячи токенов. Претрейн проходил в два этапа: сначала модель обучили на 15 триллионах токенов текста на русском и английском языках, а потом использовали 320 миллиардов токенов высококачественных данных, включая образовательный контент.
На первом этапе датасет больше чем на половину состоял из веб-документов, остальное — код, математика и специфичные данные. Под последними подразумеваются синтетика (сгенерированные YandexGPT 4 вопросы на основе проверенных источников) и внутренние наработки компании (например, внутренняя база Яндекса Fact Snippet и новый корпус данных Переводчика).
На втором этапе датасет на четверть состоял из веб-страниц и почти в равных пропорциях содержал математику, код и образовательные данные. Также была небольшая часть аугментаций фактовых документов, другой синтетики и датасетов сервисов.
По сравнению с моделью предыдущего поколения, YandexGPT 4 Lite Pretrain, новая модель показывает ощутимый рост качества в решении математических задач и написании кода. А в сравнении с зарубежными аналогами, такими как LLaMa3.1-8B и Qwen-2.5-7B-base, она лидирует почти во всех типах задач.
Ещё раз приглашаем пощупать модель, почитать статью на Хабре с деталями обучения и не забыть поделиться впечатлениями в комментариях!
ML Underhood
Сегодня Яндекс показал миру новое поколение больших языковых моделей — YandexGPT 5. Старшая модель YandexGPT 5 Pro доступна в чате с Алисой и Yandex Cloud через API. Ну а претрейн-версия младшей модели YandexGPT 5 Lite Pretrain — уже лежит на Hugging Face.
Все подробности о процессе обучения можно прочитать в статье на Хабре. А в этом посте — главные факты о свежей опенсорсной модели Яндекса.
YandexGPT 5 Lite Pretrain — модель на 8 миллиардов параметров с длиной контекста 32 тысячи токенов. Претрейн проходил в два этапа: сначала модель обучили на 15 триллионах токенов текста на русском и английском языках, а потом использовали 320 миллиардов токенов высококачественных данных, включая образовательный контент.
На первом этапе датасет больше чем на половину состоял из веб-документов, остальное — код, математика и специфичные данные. Под последними подразумеваются синтетика (сгенерированные YandexGPT 4 вопросы на основе проверенных источников) и внутренние наработки компании (например, внутренняя база Яндекса Fact Snippet и новый корпус данных Переводчика).
На втором этапе датасет на четверть состоял из веб-страниц и почти в равных пропорциях содержал математику, код и образовательные данные. Также была небольшая часть аугментаций фактовых документов, другой синтетики и датасетов сервисов.
По сравнению с моделью предыдущего поколения, YandexGPT 4 Lite Pretrain, новая модель показывает ощутимый рост качества в решении математических задач и написании кода. А в сравнении с зарубежными аналогами, такими как LLaMa3.1-8B и Qwen-2.5-7B-base, она лидирует почти во всех типах задач.
Ещё раз приглашаем пощупать модель, почитать статью на Хабре с деталями обучения и не забыть поделиться впечатлениями в комментариях!
ML Underhood
LMSys Arena Explorer
Долгожданный блогпост от lmsys прошел как-то мимо меня.
В чем суть: авторы арены сделали топик моделинг (наконец-таки он интересен ) запросов от пользователей и красиво его визуализировали в виде интерактивных pie чартов. А еще появилась отдельная вкладка с визуализацией на сайте lmarena.ai.
Основано на известном опенсорсном пайплайне BertTopic (UMAP + HDBSCAN) и модели text-embedding-3-large от OpenAI.
Для анализа использовали на удивление не очень много данных - за два месяца лета 2024 года и лишь 52 тысячи дедуплицированных промптов. Человеческий преференс датасет с 100к запросами также был опенсорснут, что замечательно, так как происходит редко.
Почему это важно: для разработчиков моделей и датасетов, а также просто энтузиастов и продвинутых пользователей крайне важно понимать категории и подкатегории (таксономии) реальных запросов, оценивать качество моделей на конкретных срезах, понимать для чего именно конечный пользователь использует модель. Очень советую всем хотя бы полистать пайчарт, так как возможно узнаете о новых для себя темах.
Некоторые инсайты
- Запросы сами по себе сильно неравномерно распределены по категориям, что говорит о возможности хакать арену прокачивая самые популярные топики.
- Самая популярная тема в общении с моделями: Веб разработка и скриптинг.
- Романтические советы от LLM почему-то довольно популярны...
- Люди очень часто тестируют модели на логику и математику - возможно этим объясняется большая корреляция скоров арены с бенчмарками, так как вероятно из них вопросы и копируются.
- Медицинские советы хоть LLM давать и не должны, но это вторая по популярности категория запросов
Так же в визуализации есть такие же пай-чарты и для WebDev арены и для text-to-image запросов, что тоже очень полезно видеть.
Кроме того, lmsys сделали еще и отдельную вкладку с так называемой P2L (Prompt-to-Leaderboard) визуализацией, где можно посмотреть качество разных моделей в отдельных категориях и на отдельных промптах, что может помочь выбрать нужную для задачи модель (они даже сделали специальный чат-мод для этого P2L Router).
В целом радует, что сравнение и оценка LLM потихоньку начинает менять свой фокус с отполированных бенчмарков к более интересным юз-кейсам. Например, OpenAI в техрепорте GPT-4.5 представила только лишь мультиязычный MMLU в разрезе по языкам, игнорируя все классические сравнения, а основное внимание сконцентрировала на Red Teaming, агентах и creative writing оценке.
Долгожданный блогпост от lmsys прошел как-то мимо меня.
В чем суть: авторы арены сделали топик моделинг (
Основано на известном опенсорсном пайплайне BertTopic (UMAP + HDBSCAN) и модели text-embedding-3-large от OpenAI.
Для анализа использовали на удивление не очень много данных - за два месяца лета 2024 года и лишь 52 тысячи дедуплицированных промптов. Человеческий преференс датасет с 100к запросами также был опенсорснут, что замечательно, так как происходит редко.
Почему это важно: для разработчиков моделей и датасетов, а также просто энтузиастов и продвинутых пользователей крайне важно понимать категории и подкатегории (таксономии) реальных запросов, оценивать качество моделей на конкретных срезах, понимать для чего именно конечный пользователь использует модель. Очень советую всем хотя бы полистать пайчарт, так как возможно узнаете о новых для себя темах.
Некоторые инсайты
- Запросы сами по себе сильно неравномерно распределены по категориям, что говорит о возможности хакать арену прокачивая самые популярные топики.
- Самая популярная тема в общении с моделями: Веб разработка и скриптинг.
- Романтические советы от LLM почему-то довольно популярны...
- Люди очень часто тестируют модели на логику и математику - возможно этим объясняется большая корреляция скоров арены с бенчмарками, так как вероятно из них вопросы и копируются.
- Медицинские советы хоть LLM давать и не должны, но это вторая по популярности категория запросов
Так же в визуализации есть такие же пай-чарты и для WebDev арены и для text-to-image запросов, что тоже очень полезно видеть.
Кроме того, lmsys сделали еще и отдельную вкладку с так называемой P2L (Prompt-to-Leaderboard) визуализацией, где можно посмотреть качество разных моделей в отдельных категориях и на отдельных промптах, что может помочь выбрать нужную для задачи модель (они даже сделали специальный чат-мод для этого P2L Router).
В целом радует, что сравнение и оценка LLM потихоньку начинает менять свой фокус с отполированных бенчмарков к более интересным юз-кейсам. Например, OpenAI в техрепорте GPT-4.5 представила только лишь мультиязычный MMLU в разрезе по языкам, игнорируя все классические сравнения, а основное внимание сконцентрировала на Red Teaming, агентах и creative writing оценке.