DL in NLP

LLM.university

Хороший бесплатный миникурс от Cohere о том как работают word embeddings, attention, трансформеры, генерация текста и как всё это применять для реальных задач.

В курсе также обсуждают промптинг, prompt chaining и дают несколько аннотированных примеров того как все это применять к задачам вроде document QA, semantic search (w Langchain) и так далее.

Местами high-level, но множество хороших иллюстраций. Рекомендую показывать это вашим студентам / джунам (если их ещё не заменил GPT4)

Cohere

Welcome to LLM University! — Cohere

LLM University (LLMU) offers in-depth, practical NLP and LLM training. Ideal for all skill levels. Learn, build, and deploy Language AI with Cohere.

👍41❤1👏1

6.89K viewsVlad Lialin, 21:18

DL in NLP

Deploying Transformers on the Apple Neural Engine
https://machinelearning.apple.com/research/neural-engine-transformers

Под шумок WWDC вышел отличный пост о том как гонять трансформеры на ANE (Apple Neural Engine) который есть во всех современных iOS и MacOS девайсах. На секундочку ANE в iPhone 14 Pro может в 17 fp16-TFlops, что близко к RTX 3070 (20 TFlops). Неплохо для телефона.

Очень короткое содержание статьи:
1. Picking the Right Data Format — use (B, C, 1, S) tensors
1. Chunking Large Intermediate Tensors — считайте головы attention последовательно а не параллельно, что увеличит вероятность L2 cache residency
1. Minimizing Memory Copies — избегайте reshape и transpose
1. Handling Bandwidth-Boundness — батчуйте если можете

On-device LLM весьма возможны, например на iPhone 14 можно запускать 7B модель со скоростью генерации 6 токенов/секунду, и конкретно с железом Apple это делать очень просто потому что один и тот же код может работать и на куче айфонов и на маках и на apple vision. Поэтому очень интересно наблюдать за тем что происходит в opensource и гадать о следующей WWDC.

Несколько предсказаний ~~которые будут неправильными и вы мне про это припомните~~:
1. LLM API от Apple на следующей WWDC
1. Одна централизованная небольшая (~7B) модель которая всегда бежит на вашем афоне и приложения могут к ней обращаться за генерациями
1. Большие модели бегут на серверах Apple и доступны аналогично OpenAI API
1. Скорее всего нет, но Apple было бы логично купить кого-нибудь типа Cohere, тк судя по слухам от The Information внутри у них так себе с большими языковыми моделями.

Apple Machine Learning Research

Deploying Transformers on the Apple Neural Engine

An increasing number of the machine learning (ML) models we build at Apple each year are either partly or fully adopting the Transformer…

👍20🔥7❤1

6.51K viewsVlad Lialin, 11:45

DL in NLP

Simple and Controllable Music Generation
arxiv.org/abs/2306.05284
Код
Демо

Свежая статья Мета о генерации музыки.
Основная идея: просто языковая моделька, но с хитро построенными аудио токенами от аудиотокенизатора EnCodec.
Код и модель доступны!

🔥31👍4❤3👏1🤬1

6.65K viewsVlad Lialin, 12:46

DL in NLP

Тем временем где-то в Стэнфорде

🔥87😁54🥰4🥱3❤1👍1

6.98K viewsVlad Lialin, 12:54

DL in NLP

Forwarded from Сиолошная

И последнее по теме. С выходом всех этих Vicuna, Koala, Dolly и других обитателей зоопарка стало модным производить сравнение между моделями с помощью...GPT-4 (как и в примере выше).

Дается специальный промпт, в него вставляются два ответа на один и тот же вопрос — от модели A и от модели B, а затем просят дать оценку по шкале от 1 до 8. 1 - это модель А сильно лучше, 8 - модель Б сильно лучше, 4-5 это ничья, ну и 2-3 и 6-7 понятно дело "модель получше".

Кажется логичным, что если модели А и Б поменять местами, то оценка по факту не поменяется (7 станет 2, 8 станет 1), и если модель стабильно лучше, то она и будет выгрывать. А вот нет! Проявляется так называемое "позиционное смещение", где модель чаще выдает оценку выше для модели А (единицу). Посмотрите на график - он должен быть почти симметричен относительно 4-5 (так как модели перемешиваются случайно). Для оценки людьми, например, это выполняется.

А что если попросить модель учесть это, чтобы она не разбрасывалась единицами? Это частично сработает...перекосив график в другую сторону (но уже менее критично).

Господа из HuggingFace 🤗 сделали исследование, разметив ответы 4 моделей на 329 разных вопросов. В целом, там много интересного написано, но из интреесного:
— для 4 моделей ранжирование моделей по парным сравнениям совпало между человеческим и GPT-4, но разные зазоры по Эло-рейтингу. То есть плохое от хорошего модель отличит, а вот пограничные случаи уже менее похожи на людские
— при этом модель выше оценивает ответы...других моделей (обученных на ответах GPT-4, лол 👍), нежели реальные человеческие ответы
— оценка GPT-4 очень сильно коррелирует (Pearson=0.96) с количеством уникальных токенов в ответе. Что, опять же, указывает на то, что модель не оценивает качество ответа - поэтому нужно быть максимально осторожным.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥19👍8👀4❤3👏1

4.97K viewsVlad Lialin, 21:17

DL in NLP

Direct Preference Optimization: Your Language Model is Secretly a Reward Model
arxiv.org/abs/2305.18290

Интересная статья, которая предлагает делать RLHF без RL. Используя пару математических трюков, можно показать что при модели Bradley-Terry человеческих предпочтений (которая похожа на то как моделируется reward в RLHF) можно вывести определённый лосс L который нам надо минимизировать.

Таким образом мы сводим RL задачу которая оптимизирует выученный (произвольный) reward к прямой задачи оптимизации на нашем датасете человеческих предпочтений. На практике это означает, что вам больше не надо страдать с PPO, не нужно генерировать текст во время обучения, и можно просто напрямую оптимизировать L. Экспериментальные результаты показывают что DPO работает так же как RLHF или лучше.

🔥48❤11👍5

5.94K viewsVlad Lialin, 16:01

DL in NLP

List of Fast Attention Implementations
Тык

Классный блогпост о методах эффективного attention с имплементациями. Рассказывает о

1. Linformer
1. Performer — может быть теперь я пойму как он работает
1. Linear Transformer
1. Attention-Free Transformer
1. RWKV — рекуррентная сетка, которая хорошо скейлится и работает на уровне трансформера протестирована вплоть до 13B параметров
1. Flash Attention
1. Memory Efficient Attention — в отличие от Flash Attention он не привязан к CUDA cores

🔥33👍3❤1

6.72K viewsVlad Lialin, 18:56

AudioPALM — аудио-языковая модель от Google
arxiv.org/abs//2306.12925

Языковая моделька которая принимает на вход текстовые и/или аудио токены и генерирует текстовые и/или аудио токены. Построена с помощью файтнюнинга чисто языковой модели PALM во время которого к ней прикручивали аудио токены. Для того чтобы превратить сгенерированные хиддены в аудио, их детокенизируют через AudioLM stage 2 и 3.

Модель умеет очень неплохо переводить язык с аудио в аудио на другом языке, сохраняя голос и эмоции человека. Интересно что с несколькими языками (итальянский, немецкий) модель переводит с заметным акцентом, а с другими (французский) переводит с чистым американским акцентов.

(смотрите видео обязательно со звуком)

👍34🔥4

6.91K viewsVlad Lialin, edited 03:29

DL in NLP

Главный RL-ивент Тинькофф + Петербург + Июль = 💛

Этот идеальный комбо AI-команда Тинькофф хочет разделить с комьюнити. Поэтому ребята приглашают на Tinkoff.AI Saint Reinforcenburg 6 июля в Санкт-Петербурге.

Будут говорить о новых исследованиях, которые делали сами и вместе с InstaDeep, а еще о будущем RL. Подробнее на странице митапа. Там же можно зарегистрироваться.

И не забудьте позвать с собой RL-друзей!

#промо

🤮29🔥14👍3❤1💩1

5.58K viewsVlad Lialin, 11:15

DL in NLP

KOSMOS-2: Grounding Multimodal Large Language Models to the World
arxiv.org/abs/2306.14824

Кажется проблема работы с текстом близка к решению: отдельные downstream задачи стали прерогативой продуктовых команд, почти всё можно решить подходом BERT/ChatGPT + labelled data. Аналогичная ситуация обстоит с многими задачами CV.

Но в мультимодальных сетях всё ещё есть открытые исследовательские вопросы. Команда Microsoft разработала новую модель Kosmos-2, которая умеет в mixed-modality language modeling, но в отличие от Flamingo, где в качестве инпута используется только текст и изображение, тут модель умеет принимать на вход (и генерировать) bounding boxes. То есть можно например спросить, куда смотрить этот[bbox] человек и модель ответит вам туда[bbox]. Кроме новых возможностей это также позволяет улушать интерпретируемость модели и снижать галлюцинации, тк модель сильнее обсуславливается на объекты в изображении.

Для тренировки использовали довольно хитрый пайплайн похожий на MDETR, где текст изначально парсился на группы существительных с помощью spaCy которым находили bbox с помощью GLIP (не путать с CLIP).

Результаты — новый датасет GrIT на 90M изображений и 137M bbox-text pairs, сильные результаты на RefCOCO, VQA, и Flickr.

Модель, код и датасет доступны на гитхабе.

❤19👍8🔥5

6.57K viewsVlad Lialin, 17:10

DL in NLP

Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
blog.salesforceairesearch.com/xgen/

Команда Salesforce выпустила новую серию опенсорсных моделей модель: XGen.

XGen-7B-4K-base натренирована на 800B токенах с длинной текста 2К, после чего ещё на 400B токенах с длинной 4К

XGen-7B-8K-base — дополнительно натренирована на 300B токенах при длине 8К.

В блогпосте также описывают data mixture: Redpajama (включая статьи с Arxiv) + Wikipedia (оверсемпл x4) + C4 (undersample x0.2) + The Pile (mathematics) + StarCoder.

Другие оперсорсные модели тоже могут обрабатывать последовательности длины 8К, но они никогда не были тренированы на таких длинных текстах. Обычно модельки тренируются на 1К-2К и дальше просто экстраполируют. Но из-за этого страдает качество моделей на текстах длиннее 2К. На проприетарных моделях хорошо видеть этот эффект в ChatGPT-16К, который почти гарантированно забывает все после 8К токенов.

В результате XGen-7B-8K на MMLU обходит LLaMA, OpenLLaMA, Falcon, Redpajama того же размера и Cerebras-13B, Dolly-12B, OPT-13b. Посмотрев на лидербоард MMLU добавлю что также обходит OPT-175B и Bloom, но заметно хуже оригинального GPT-3, CohereCommand-52B и CohereCommand-6B. Хорошо было бы ещё сравниться с недавней MPT-30B которая может быть одной из лучших опенсорсных моделей доступных сейчас.

Но самые интересные результаты конечно на более длинных задачах: на SCROLLS (суммаризация) разрыв между XGen и другими 8B моделями становится очень большим: 5+ поинтов.

Модели доступны на 🤗

Salesforce AI

Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length

TLDR

We trained a series of 7B LLMs named XGen-7B with standard dense attention on up to 8K sequence length for up to 1.5T tokens. We also fine tune the models on public-domain instructional data. The main take-aways are:

* On standard NLP benchmarks,…

👍23❤8

6.27K viewsVlad Lialin, 14:15

DL in NLP

Подробности, а вернее спекуляции о деталях GPT4

Коротко в цифрах:
1. 1.8T параметров, 13T токенов, батч 60 миллионов токенов
1. MoE, 16 экспертов, 2 на каждый инференс
1. Мультимодальная GPT4 сделана аналогично Flamingo, затюнена на 2Т токенов
1. Тренировали на 25 тысячах A100 в течение 90-100 дней, ~2.15e25 FLOPs
1. Условная стоимость тренировки $63M (но в реальности нельзя арендовать 25K A100)
1. Tensor parallel = 8, pipeline parallel = 15, zero stage = 1
1. Две эпохи по текстовой части датасета, четыре — по кодовой (13Т токенов это умноженные на эпохи)
1. MultiQuery Attention — очень помогает в инференсе, тк сокращает размер KV cache
1. Инферится на нескольких независимых кластерах из 128GPU

Источник: Semianalysis (пейвол на $500, я не готов столько платить), но добрые люди суммаризировали статью в твиттере
В эти спекуляции легко поверить — OpenAI всегда были известны тем что они берут простые идеи и пишут очень эффективный код который эти идеи выполняет.

Теперь немного своих мыслей. Действительно кажется что сейчас для больших компаний стоимость тренировки абсолютно не важна, но что важно — это стоимость инференса. Она уже сильно влияет на архитектуру GPT4, например небольшое число экспертов, MQA. Очень забавно что вся история про спарсовые модели пошла от философско-биологичских аналогий, а в конце-концов реально нужна по инженерным причинам.

Кроме этого, заметили, что GPT4 недотренирована по Шиншилле? Если в модели 1.8T параметров, то chinchilla-optimal будет 36T токенов (не очень корректно из-за спарсовости). Это намекает на:
1. OpenAI играет в долгую и они будут дотренировывать GPT4 ещё много раз
1. Полезные токены в интернете начали заканчиваться. Sam Altman говорил про эту проблему, и оказалось мы её уже достигли.
1. Модели перестанут расти (?)

Я немного удивлён относительно низкой эквивалентной стоимости A100-часов. В мире очень много компаний которые могут позволить себе потратить $100M на важный продукт. Ждём анонса мега-кластеров в AWS?

🔥24👍16❤5💘1

6.24K viewsVlad Lialin, edited 01:23

DL in NLP

OMG, тот твиттер тред удалили из-за копирайта (Semianalysis). Но мы всё помним.
Продолжение скринов в комментариях к этому посту.

😁22👍7❤3🤔1

5.31K viewsVlad Lialin, 01:48

DL in NLP

Сделал свой небольшой тред: https://twitter.com/guitaricet/status/1678589577148153856

Там те же идеи что и тут, но на английском.

X (formerly Twitter)

Vlad Lialin (@guitaricet) on X

So.. because we seem to be descending into a world where information is not free, let me reiterate some public ideas about #GPT4 architecture and training details:

1. 1.8T parameters, 13T tokens
1. MoE with 16 experts
1. 25K A100s, 3 months
1. Multiple epochs…

🔥12

5.03K viewsVlad Lialin, 02:20

DL in NLP

Forwarded from Сиолошная

1:03

This media is not supported in your browser

VIEW IN TELEGRAM

Anthropic анонсировали Claude 2, новую модель в авангарде интеллектуальных ассистентов. Прямых сравнений с GPT-4 нет, но относительно старой модели улучшили всё, особенно математику, программирование и способность рассуждать.

Сама компания предлагает думать о Claude 2 как "о дружелюбном, полном энтузиазма коллеге или личном помощнике, которого можно проинструктировать на естественном языке, чтобы помочь вам со многими задачами".

Потыкать бету можно тут: https://claude.ai/
Почитать карточку модели (больше про метрики и сравнение Alignment, нежели технические детали обучения): тяжелый pdf

В прикрепленном видео - демонстрация юзкейсов (но "вау"-эффекта уже не производит...)

Source

👍10🔥2❤1

3.6K viewsVlad Lialin, 14:53

DL in NLP

Claude 2 доступный как ChatGPT это очень классно

Наконец-то у ChatGPT появляются настоящие конкуренты, а не Bard (который просто игрушка гугла so far). И то что нам принесла конкуренция — реально удобный интерфейс работы с длинными файлами.

Потестировал свой любимый промпт который пока что никто из моделей не смог сделать. Claude 2 пока что тоже с ходу не может написать приличный код для ditributed LM training.

~~Offtop: заметил что~~ ~~ai.com~~ ~~стал вести не на chagpt, а на сайт майкрософт~~ (нет)

👍13❤1😁1

19.6K viewsVlad Lialin, edited 15:09

2025/07/09 19:37:09
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>