Telegram Web
LLM.university

Хороший бесплатный миникурс от Cohere о том как работают word embeddings, attention, трансформеры, генерация текста и как всё это применять для реальных задач.

В курсе также обсуждают промптинг, prompt chaining и дают несколько аннотированных примеров того как все это применять к задачам вроде document QA, semantic search (w Langchain) и так далее.

Местами high-level, но множество хороших иллюстраций. Рекомендую показывать это вашим студентам / джунам (если их ещё не заменил GPT4)
👍411👏1
Deploying Transformers on the Apple Neural Engine
https://machinelearning.apple.com/research/neural-engine-transformers

Под шумок WWDC вышел отличный пост о том как гонять трансформеры на ANE (Apple Neural Engine) который есть во всех современных iOS и MacOS девайсах. На секундочку ANE в iPhone 14 Pro может в 17 fp16-TFlops, что близко к RTX 3070 (20 TFlops). Неплохо для телефона.

Очень короткое содержание статьи:
1. Picking the Right Data Format — use (B, C, 1, S) tensors
1. Chunking Large Intermediate Tensors — считайте головы attention последовательно а не параллельно, что увеличит вероятность L2 cache residency
1. Minimizing Memory Copies — избегайте reshape и transpose
1. Handling Bandwidth-Boundness — батчуйте если можете

On-device LLM весьма возможны, например на iPhone 14 можно запускать 7B модель со скоростью генерации 6 токенов/секунду, и конкретно с железом Apple это делать очень просто потому что один и тот же код может работать и на куче айфонов и на маках и на apple vision. Поэтому очень интересно наблюдать за тем что происходит в opensource и гадать о следующей WWDC.

Несколько предсказаний которые будут неправильными и вы мне про это припомните:
1. LLM API от Apple на следующей WWDC
1. Одна централизованная небольшая (~7B) модель которая всегда бежит на вашем афоне и приложения могут к ней обращаться за генерациями
1. Большие модели бегут на серверах Apple и доступны аналогично OpenAI API
1. Скорее всего нет, но Apple было бы логично купить кого-нибудь типа Cohere, тк судя по слухам от The Information внутри у них так себе с большими языковыми моделями.
👍20🔥71
Simple and Controllable Music Generation
arxiv.org/abs/2306.05284
Код
Демо

Свежая статья Мета о генерации музыки.
Основная идея: просто языковая моделька, но с хитро построенными аудио токенами от аудиотокенизатора EnCodec.
Код и модель доступны!
🔥31👍43👏1🤬1
Тем временем где-то в Стэнфорде
🔥87😁54🥰4🥱31👍1
Forwarded from Сиолошная
И последнее по теме. С выходом всех этих Vicuna, Koala, Dolly и других обитателей зоопарка стало модным производить сравнение между моделями с помощью...GPT-4 (как и в примере выше).

Дается специальный промпт, в него вставляются два ответа на один и тот же вопрос — от модели A и от модели B, а затем просят дать оценку по шкале от 1 до 8. 1 - это модель А сильно лучше, 8 - модель Б сильно лучше, 4-5 это ничья, ну и 2-3 и 6-7 понятно дело "модель получше".

Кажется логичным, что если модели А и Б поменять местами, то оценка по факту не поменяется (7 станет 2, 8 станет 1), и если модель стабильно лучше, то она и будет выгрывать. А вот нет! Проявляется так называемое "позиционное смещение", где модель чаще выдает оценку выше для модели А (единицу). Посмотрите на график - он должен быть почти симметричен относительно 4-5 (так как модели перемешиваются случайно). Для оценки людьми, например, это выполняется.

А что если попросить модель учесть это, чтобы она не разбрасывалась единицами? Это частично сработает...перекосив график в другую сторону (но уже менее критично).

Господа из HuggingFace 🤗 сделали исследование, разметив ответы 4 моделей на 329 разных вопросов. В целом, там много интересного написано, но из интреесного:
— для 4 моделей ранжирование моделей по парным сравнениям совпало между человеческим и GPT-4, но разные зазоры по Эло-рейтингу. То есть плохое от хорошего модель отличит, а вот пограничные случаи уже менее похожи на людские
— при этом модель выше оценивает ответы...других моделей (обученных на ответах GPT-4, лол 👍), нежели реальные человеческие ответы
— оценка GPT-4 очень сильно коррелирует (Pearson=0.96) с количеством уникальных токенов в ответе. Что, опять же, указывает на то, что модель не оценивает качество ответа - поэтому нужно быть максимально осторожным.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍8👀43👏1
Direct Preference Optimization: Your Language Model is Secretly a Reward Model
arxiv.org/abs/2305.18290

Интересная статья, которая предлагает делать RLHF без RL. Используя пару математических трюков, можно показать что при модели Bradley-Terry человеческих предпочтений (которая похожа на то как моделируется reward в RLHF) можно вывести определённый лосс L который нам надо минимизировать.

Таким образом мы сводим RL задачу которая оптимизирует выученный (произвольный) reward к прямой задачи оптимизации на нашем датасете человеческих предпочтений. На практике это означает, что вам больше не надо страдать с PPO, не нужно генерировать текст во время обучения, и можно просто напрямую оптимизировать L. Экспериментальные результаты показывают что DPO работает так же как RLHF или лучше.
🔥4811👍5
List of Fast Attention Implementations
Тык

Классный блогпост о методах эффективного attention с имплементациями. Рассказывает о

1. Linformer
1. Performer — может быть теперь я пойму как он работает
1. Linear Transformer
1. Attention-Free Transformer
1. RWKV — рекуррентная сетка, которая хорошо скейлится и работает на уровне трансформера протестирована вплоть до 13B параметров
1. Flash Attention
1. Memory Efficient Attention — в отличие от Flash Attention он не привязан к CUDA cores
🔥33👍31
Media is too big
VIEW IN TELEGRAM
AudioPALM — аудио-языковая модель от Google
arxiv.org/abs//2306.12925

Языковая моделька которая принимает на вход текстовые и/или аудио токены и генерирует текстовые и/или аудио токены. Построена с помощью файтнюнинга чисто языковой модели PALM во время которого к ней прикручивали аудио токены. Для того чтобы превратить сгенерированные хиддены в аудио, их детокенизируют через AudioLM stage 2 и 3.

Модель умеет очень неплохо переводить язык с аудио в аудио на другом языке, сохраняя голос и эмоции человека. Интересно что с несколькими языками (итальянский, немецкий) модель переводит с заметным акцентом, а с другими (французский) переводит с чистым американским акцентов.

(смотрите видео обязательно со звуком)
👍34🔥4
Главный RL-ивент Тинькофф + Петербург + Июль = 💛

Этот идеальный комбо AI-команда Тинькофф хочет разделить с комьюнити. Поэтому ребята приглашают на Tinkoff.AI Saint Reinforcenburg 6 июля в Санкт-Петербурге.

Будут говорить о новых исследованиях, которые делали сами и вместе с InstaDeep, а еще о будущем RL. Подробнее на странице митапа. Там же можно зарегистрироваться.

И не забудьте позвать с собой RL-друзей!

#промо
🤮29🔥14👍31💩1
KOSMOS-2: Grounding Multimodal Large Language Models to the World
arxiv.org/abs/2306.14824

Кажется проблема работы с текстом близка к решению: отдельные downstream задачи стали прерогативой продуктовых команд, почти всё можно решить подходом BERT/ChatGPT + labelled data. Аналогичная ситуация обстоит с многими задачами CV.

Но в мультимодальных сетях всё ещё есть открытые исследовательские вопросы. Команда Microsoft разработала новую модель Kosmos-2, которая умеет в mixed-modality language modeling, но в отличие от Flamingo, где в качестве инпута используется только текст и изображение, тут модель умеет принимать на вход (и генерировать) bounding boxes. То есть можно например спросить, куда смотрить этот[bbox] человек и модель ответит вам туда[bbox]. Кроме новых возможностей это также позволяет улушать интерпретируемость модели и снижать галлюцинации, тк модель сильнее обсуславливается на объекты в изображении.

Для тренировки использовали довольно хитрый пайплайн похожий на MDETR, где текст изначально парсился на группы существительных с помощью spaCy которым находили bbox с помощью GLIP (не путать с CLIP).

Результаты — новый датасет GrIT на 90M изображений и 137M bbox-text pairs, сильные результаты на RefCOCO, VQA, и Flickr.

Модель, код и датасет доступны на гитхабе.
19👍8🔥5
Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
blog.salesforceairesearch.com/xgen/

Команда Salesforce выпустила новую серию опенсорсных моделей модель: XGen.

XGen-7B-4K-base натренирована на 800B токенах с длинной текста 2К, после чего ещё на 400B токенах с длинной 4К

XGen-7B-8K-base — дополнительно натренирована на 300B токенах при длине 8К.

В блогпосте также описывают data mixture: Redpajama (включая статьи с Arxiv) + Wikipedia (оверсемпл x4) + C4 (undersample x0.2) + The Pile (mathematics) + StarCoder.

Другие оперсорсные модели тоже могут обрабатывать последовательности длины 8К, но они никогда не были тренированы на таких длинных текстах. Обычно модельки тренируются на 1К-2К и дальше просто экстраполируют. Но из-за этого страдает качество моделей на текстах длиннее 2К. На проприетарных моделях хорошо видеть этот эффект в ChatGPT-16К, который почти гарантированно забывает все после 8К токенов.

В результате XGen-7B-8K на MMLU обходит LLaMA, OpenLLaMA, Falcon, Redpajama того же размера и Cerebras-13B, Dolly-12B, OPT-13b. Посмотрев на лидербоард MMLU добавлю что также обходит OPT-175B и Bloom, но заметно хуже оригинального GPT-3, CohereCommand-52B и CohereCommand-6B. Хорошо было бы ещё сравниться с недавней MPT-30B которая может быть одной из лучших опенсорсных моделей доступных сейчас.

Но самые интересные результаты конечно на более длинных задачах: на SCROLLS (суммаризация) разрыв между XGen и другими 8B моделями становится очень большим: 5+ поинтов.

Модели доступны на 🤗
👍238
Подробности, а вернее спекуляции о деталях GPT4

Коротко в цифрах:
1. 1.8T параметров, 13T токенов, батч 60 миллионов токенов
1. MoE, 16 экспертов, 2 на каждый инференс
1. Мультимодальная GPT4 сделана аналогично Flamingo, затюнена на 2Т токенов
1. Тренировали на 25 тысячах A100 в течение 90-100 дней, ~2.15e25 FLOPs
1. Условная стоимость тренировки $63M (но в реальности нельзя арендовать 25K A100)
1. Tensor parallel = 8, pipeline parallel = 15, zero stage = 1
1. Две эпохи по текстовой части датасета, четыре — по кодовой (13Т токенов это умноженные на эпохи)
1. MultiQuery Attention — очень помогает в инференсе, тк сокращает размер KV cache
1. Инферится на нескольких независимых кластерах из 128GPU

Источник: Semianalysis (пейвол на $500, я не готов столько платить), но добрые люди суммаризировали статью в твиттере
В эти спекуляции легко поверить — OpenAI всегда были известны тем что они берут простые идеи и пишут очень эффективный код который эти идеи выполняет.

Теперь немного своих мыслей. Действительно кажется что сейчас для больших компаний стоимость тренировки абсолютно не важна, но что важно — это стоимость инференса. Она уже сильно влияет на архитектуру GPT4, например небольшое число экспертов, MQA. Очень забавно что вся история про спарсовые модели пошла от философско-биологичских аналогий, а в конце-концов реально нужна по инженерным причинам.

Кроме этого, заметили, что GPT4 недотренирована по Шиншилле? Если в модели 1.8T параметров, то chinchilla-optimal будет 36T токенов (не очень корректно из-за спарсовости). Это намекает на:
1. OpenAI играет в долгую и они будут дотренировывать GPT4 ещё много раз
1. Полезные токены в интернете начали заканчиваться. Sam Altman говорил про эту проблему, и оказалось мы её уже достигли.
1. Модели перестанут расти (?)

Я немного удивлён относительно низкой эквивалентной стоимости A100-часов. В мире очень много компаний которые могут позволить себе потратить $100M на важный продукт. Ждём анонса мега-кластеров в AWS?
🔥24👍165💘1
OMG, тот твиттер тред удалили из-за копирайта (Semianalysis). Но мы всё помним.
Продолжение скринов в комментариях к этому посту.
😁22👍73🤔1
Forwarded from Сиолошная
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic анонсировали Claude 2, новую модель в авангарде интеллектуальных ассистентов. Прямых сравнений с GPT-4 нет, но относительно старой модели улучшили всё, особенно математику, программирование и способность рассуждать.

Сама компания предлагает думать о Claude 2 как "о дружелюбном, полном энтузиазма коллеге или личном помощнике, которого можно проинструктировать на естественном языке, чтобы помочь вам со многими задачами".

Потыкать бету можно тут: https://claude.ai/
Почитать карточку модели (больше про метрики и сравнение Alignment, нежели технические детали обучения): тяжелый pdf

В прикрепленном видео - демонстрация юзкейсов (но "вау"-эффекта уже не производит...)

Source
👍10🔥21
Claude 2 доступный как ChatGPT это очень классно

Наконец-то у ChatGPT появляются настоящие конкуренты, а не Bard (который просто игрушка гугла so far). И то что нам принесла конкуренция — реально удобный интерфейс работы с длинными файлами.

Потестировал свой любимый промпт который пока что никто из моделей не смог сделать. Claude 2 пока что тоже с ходу не может написать приличный код для ditributed LM training.

Offtop: заметил что ai.com стал вести не на chagpt, а на сайт майкрософт (нет)
👍131😁1
2025/07/09 19:37:09
Back to Top
HTML Embed Code: