Large Transformer Model Inference Optimization
Lilian Weng, OpenAI
Тык
🔥 Огненный блогпост от Head of Applied Research из OpenAI
Главные проблемы инференса больших трансформеров:
1. Память: кэш KV-активаций davinci при батче 512 и длине текста 2048 весит 3Тб - в три раза больше весов модели.
1. Авторегрессионность: текст генерируется пословно, что нельзя параллелить м медленно
Дальше разбираются различные решения вроде умных способов параллелизации на большое число GPU, memory offloading, EffectiveTransformer, прунинг, квантизация и модификации архитектуры.
Много тем разобраны довольно подробно. Например в квантизации говорят не только про LLM.int8(), но и про альтернативные восьмибитные подходы. Про прунинг я узнал очень много нового из статьи и оказывается unstructured pruning не так бесполезен на практике как я думал тк A100 умеют перемножать N:M sparse матрицы. Под конец начинается полное безумие с Terraformer, Pyramid residual MoE.
GPUs конечно go brr, но надо делать brr эффективно
Lilian Weng, OpenAI
Тык
Главные проблемы инференса больших трансформеров:
1. Память: кэш KV-активаций davinci при батче 512 и длине текста 2048 весит 3Тб - в три раза больше весов модели.
1. Авторегрессионность: текст генерируется пословно, что нельзя параллелить м медленно
Дальше разбираются различные решения вроде умных способов параллелизации на большое число GPU, memory offloading, EffectiveTransformer, прунинг, квантизация и модификации архитектуры.
Много тем разобраны довольно подробно. Например в квантизации говорят не только про LLM.int8(), но и про альтернативные восьмибитные подходы. Про прунинг я узнал очень много нового из статьи и оказывается unstructured pruning не так бесполезен на практике как я думал тк A100 умеют перемножать N:M sparse матрицы. Под конец начинается полное безумие с Terraformer, Pyramid residual MoE.
GPUs конечно go brr, но надо делать brr эффективно
Please open Telegram to view this post
VIEW IN TELEGRAM
lilianweng.github.io
Large Transformer Model Inference Optimization
[Updated on 2023-01-24: add a small section on Distillation.]
Large transformer models are mainstream nowadays, creating SoTA results for a variety of tasks. They are powerful but very expensive to train and use. The extremely high inference cost, in both…
Large transformer models are mainstream nowadays, creating SoTA results for a variety of tasks. They are powerful but very expensive to train and use. The extremely high inference cost, in both…
👍27🔥13❤1
В Тинькофф классная финтех-команда, которая ведет свой телеграм-канал, в нем они пишут о:
— подкастах, кейсах и полезных статьях на Хабре;
— развитии ИТ-коммьюнити, а также проводят митапы и конференции;
— главном в еженедельный дайджест;
— лучших мемах индустрии.
Только полезное и интересное от разработчиков и для разработчиков. Подписывайтесь на IT’s Tinkoff.
#промо
— подкастах, кейсах и полезных статьях на Хабре;
— развитии ИТ-коммьюнити, а также проводят митапы и конференции;
— главном в еженедельный дайджест;
— лучших мемах индустрии.
Только полезное и интересное от разработчиков и для разработчиков. Подписывайтесь на IT’s Tinkoff.
#промо
🤮52👍11💩3👎2😁2
ChatGPT: Jack of all trades, master of none
Kocoń et al.
arxiv.org/abs/2302.10724
Очень подробная эвалюация ChatGPT на 25 NLP задачах. Сравнивают few-shot или zero-shot ChatGPT с fully-supervised моделями. Если коротко, в где-то пловине задач ChatGPT не очень далёк от supervised SOTA, что впечатляет. Например на SQuAD он показывет себя лучше BiDAF — соты 2018 года — без какого-либо обучения на данных SQuAD. В статье довольно неплохо описан сам ChatGPT (на основе публично доступной инфы, так что ничего нового). Но вообще очень много интеренсых результатов, рекомендую к прочтению.
Интересно что ChatGPT фейлится на задачах которые требуют понимания эмоций текста. Бездушная машина 🤖
Kocoń et al.
arxiv.org/abs/2302.10724
Очень подробная эвалюация ChatGPT на 25 NLP задачах. Сравнивают few-shot или zero-shot ChatGPT с fully-supervised моделями. Если коротко, в где-то пловине задач ChatGPT не очень далёк от supervised SOTA, что впечатляет. Например на SQuAD он показывет себя лучше BiDAF — соты 2018 года — без какого-либо обучения на данных SQuAD. В статье довольно неплохо описан сам ChatGPT (на основе публично доступной инфы, так что ничего нового). Но вообще очень много интеренсых результатов, рекомендую к прочтению.
Интересно что ChatGPT фейлится на задачах которые требуют понимания эмоций текста. Бездушная машина 🤖
👍39🤔1
🌆 Одно из первых государственных решений о копирайте AI-generated изображений
Новость, документ
United States Copyright Office отозвал копирайт на изображения из Zarya of the Dawn сгенерированные Kris Kashtanova с помощью Midjorney. Теперь копирайт распространяется только на текст в комиксе и с помощью которого были сгенерированы изображения.
We conclude that Ms. Kashtanova is the author of the Work’s text as well as the selection, coordination, and arrangement of the Work’s written and visual elements. That authorship is protected by copyright. However, as discussed below, the images in the Work that were generated by the Midjourney technology are not the product of human authorship.
Изначально копирайт был одобрен, но в заявлении автор не указал что изображения сгенерированы. Дальше идёт забавное "the Office became aware of statements on social media attributed to Ms. Kashtanova that she had created the comic book using Midjourney". То есть Copyright Office узнал об этом из твиттера 🤷♂️
В общем понятно следующее: роботов опять дискриминируют 🤖. Основы дискриминаци, как и всегда, построены на устаревших интерпретациях законов. Конкретно зацепились за “works of authorship” где утверждают что она относится только к работам авторов-людей. А автор определяется как "he to whom anything owes its origin; originator; maker; one who completes a work of science or literature" (Burrow-Giles Lithographic Co. v. Sarony, 1884). Если хочется чуть более современный прецедент то в Urantia Found. v. Kristen Maaherra, 1997 было постановлено что "some element of human creativity must have occurred in order for the Book to be copyrightable".
Я жду развития этой истории, потому что на основе этих же законов фотография может покрываться копирайтом из-за "human selection and arrangement of the revelations". И тут есть шансы доказать что создание высококачественных изображений передающих то что автор хочет с помощью text2image — это процесс в котором человек как раз и занимается "selection and arrangement"
Новость, документ
United States Copyright Office отозвал копирайт на изображения из Zarya of the Dawn сгенерированные Kris Kashtanova с помощью Midjorney. Теперь копирайт распространяется только на текст в комиксе и с помощью которого были сгенерированы изображения.
We conclude that Ms. Kashtanova is the author of the Work’s text as well as the selection, coordination, and arrangement of the Work’s written and visual elements. That authorship is protected by copyright. However, as discussed below, the images in the Work that were generated by the Midjourney technology are not the product of human authorship.
Изначально копирайт был одобрен, но в заявлении автор не указал что изображения сгенерированы. Дальше идёт забавное "the Office became aware of statements on social media attributed to Ms. Kashtanova that she had created the comic book using Midjourney". То есть Copyright Office узнал об этом из твиттера 🤷♂️
В общем понятно следующее: роботов опять дискриминируют 🤖. Основы дискриминаци, как и всегда, построены на устаревших интерпретациях законов. Конкретно зацепились за “works of authorship” где утверждают что она относится только к работам авторов-людей. А автор определяется как "he to whom anything owes its origin; originator; maker; one who completes a work of science or literature" (Burrow-Giles Lithographic Co. v. Sarony, 1884). Если хочется чуть более современный прецедент то в Urantia Found. v. Kristen Maaherra, 1997 было постановлено что "some element of human creativity must have occurred in order for the Book to be copyrightable".
Я жду развития этой истории, потому что на основе этих же законов фотография может покрываться копирайтом из-за "human selection and arrangement of the revelations". И тут есть шансы доказать что создание высококачественных изображений передающих то что автор хочет с помощью text2image — это процесс в котором человек как раз и занимается "selection and arrangement"
👍16🤡7🔥2
Forwarded from DeepSchool
🎙Онлайн-подкаст с Владом Лялиным
Хотим попробовать новый формат контента в нашем канале! В четверг, 2 марта, в 18:00 МСК проведем прямой эфир.
Коротко о Владе:
- учится на PhD в Бостоне, США (примеры статей Влада: раз, два, три);
- автор канала DL in NLP с 5.7к подписчиками — там Влад делится опытом, освещает новости из мира ML и обозревает статьи;
- преподает NLP в UMass Lowel (в России преподавал NLP, работая в iPavlov);
- стажировался в Apple, Google и Amazon.
На подкасте мы поговорим про:
- нетворкинг для инженеров — почему это важно и как начать;
- переезд в штаты — как Влад поступил на PhD и его рекомендации;
- стажировки в FAANG — как попасть на стажировку в лучшие технические компании;
- быт ресерчера в Америке — какие задачи решают в корпорациях мирового масштаба прямо сейчас;
В конце встречи вы сможете задать Владу свои вопросы из онлайн-зала. Или оставляйте вопросы в гугл-форме – некоторые из них мы зададим во время подкаста.
Встречаемся здесь в четверг, 2 марта, в 18:00 МСК 🔔
Хотим попробовать новый формат контента в нашем канале! В четверг, 2 марта, в 18:00 МСК проведем прямой эфир.
Коротко о Владе:
- учится на PhD в Бостоне, США (примеры статей Влада: раз, два, три);
- автор канала DL in NLP с 5.7к подписчиками — там Влад делится опытом, освещает новости из мира ML и обозревает статьи;
- преподает NLP в UMass Lowel (в России преподавал NLP, работая в iPavlov);
- стажировался в Apple, Google и Amazon.
На подкасте мы поговорим про:
- нетворкинг для инженеров — почему это важно и как начать;
- переезд в штаты — как Влад поступил на PhD и его рекомендации;
- стажировки в FAANG — как попасть на стажировку в лучшие технические компании;
- быт ресерчера в Америке — какие задачи решают в корпорациях мирового масштаба прямо сейчас;
В конце встречи вы сможете задать Владу свои вопросы из онлайн-зала. Или оставляйте вопросы в гугл-форме – некоторые из них мы зададим во время подкаста.
Встречаемся здесь в четверг, 2 марта, в 18:00 МСК 🔔
👍21🔥6💩2
^^^ Прихожу в подкаст @deep_school в четверг. Заходите послушать если вдруг интересно.
👍31🤮8
Forwarded from Сиолошная
ChatGPT в массы!
OpenAI только что написали, что теперь ChatGPT доступна по API, то есть каждый разработчик может добавить её в своё приложение буквально за один вечер. Из интересного - пишут, что с декабря достигли 90% снижения трат через разные оптимизации.
Цена в 10 раз ниже самой мощной GPT-3.5, которая была доступна для этого. Вероятнее всего, модель уменьшили в размерах (то есть это может быть условно не 175B, а 6.7B модель, которая тоже очень неплоха).
Еще объявили о нескольких интеграциях, например, в Quizlet -сервис, способствующий обучению и изучению новых тем. Теперь будет доступен персональный AI-преподаватель, который подскажет и объяснит.
Instacart позволить покупателям задавать вопросы о еде («Как приготовить рыбные тако?» или «Предложи здоровый обед для моих детей») и получать вдохновляющие ответы, содержащие ссылки на товары, которые можно купить в один клик. Пока из того что видел - первая подобная интеграция, некоторого рода "продукт-плейсмент". Вижу применение этого и в поисковых чатботах - когда в выдачу подмешиваются ссылки, за которые заплатили.
Техническая инфа: теперь для запроса в модель нужно указывать не только текст для продолжения, но и дополнительные штучки - их перечень сведён в Chat Markup Language (“ChatML”). В частности, предполагаются "роли", так как модель была заточена под диалог - есть AI-ассистент, который пишет ответы, и есть "человек", пишущий сообщения с вашей стороны.
И напоследок важное:
> Data submitted through the API is no longer used for service improvements (including model training) unless the organization opts in
Теперь данные клиентов не будут использоваться для дообучения в будущем!
OpenAI только что написали, что теперь ChatGPT доступна по API, то есть каждый разработчик может добавить её в своё приложение буквально за один вечер. Из интересного - пишут, что с декабря достигли 90% снижения трат через разные оптимизации.
Цена в 10 раз ниже самой мощной GPT-3.5, которая была доступна для этого. Вероятнее всего, модель уменьшили в размерах (то есть это может быть условно не 175B, а 6.7B модель, которая тоже очень неплоха).
Еще объявили о нескольких интеграциях, например, в Quizlet -сервис, способствующий обучению и изучению новых тем. Теперь будет доступен персональный AI-преподаватель, который подскажет и объяснит.
Instacart позволить покупателям задавать вопросы о еде («Как приготовить рыбные тако?» или «Предложи здоровый обед для моих детей») и получать вдохновляющие ответы, содержащие ссылки на товары, которые можно купить в один клик. Пока из того что видел - первая подобная интеграция, некоторого рода "продукт-плейсмент". Вижу применение этого и в поисковых чатботах - когда в выдачу подмешиваются ссылки, за которые заплатили.
Техническая инфа: теперь для запроса в модель нужно указывать не только текст для продолжения, но и дополнительные штучки - их перечень сведён в Chat Markup Language (“ChatML”). В частности, предполагаются "роли", так как модель была заточена под диалог - есть AI-ассистент, который пишет ответы, и есть "человек", пишущий сообщения с вашей стороны.
И напоследок важное:
> Data submitted through the API is no longer used for service improvements (including model training) unless the organization opts in
Теперь данные клиентов не будут использоваться для дообучения в будущем!
🔥26👍9
О скором релизе GPT-4
Тут какой-то менеджер в Microsoft Berlin на митапе сказал что на следующей неделе будет анонс модели. Это звучит очень круто и консистентно со слухами. Давайте суммаризируем что мы слышали о модели:
1. Выйдет в феврале (почти)
1. Такой же скачок в числе параметров как и GPT-2 к GPT-3 - trillion is the new billion
1. Sparse, скорее всего MoE
1. Такой же скачок в качестве как и GPT-2 к GPT-3
1. Мультимодальность: текст, картинки, аудио
1. Мультимодальность: протеины
1. Под мультимодальностью имеется в виду не только инпут, но и генерация
1. Обучали на 10-20 тысячах A100 в течении нескольких месяцев
1. Длина контекста: 32 тысячи токенов
Хайп по OpenAI лишь набирает обороты
Тут какой-то менеджер в Microsoft Berlin на митапе сказал что на следующей неделе будет анонс модели. Это звучит очень круто и консистентно со слухами. Давайте суммаризируем что мы слышали о модели:
1. Выйдет в феврале (почти)
1. Такой же скачок в числе параметров как и GPT-2 к GPT-3 - trillion is the new billion
1. Sparse, скорее всего MoE
1. Такой же скачок в качестве как и GPT-2 к GPT-3
1. Мультимодальность: текст, картинки, аудио
1. Мультимодальность: протеины
1. Под мультимодальностью имеется в виду не только инпут, но и генерация
1. Обучали на 10-20 тысячах A100 в течении нескольких месяцев
1. Длина контекста: 32 тысячи токенов
Хайп по OpenAI лишь набирает обороты
Developer
GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany
The release of GPT-4 is imminent, as Microsoft Germany CTO Andreas Braun mentioned at an AI kickoff event on 9 March 2023.
🤯58🔥5👍3❤2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Ух, ребята подняли LLaMA 7B model на 4GB RAM Raspberry Pi 4.
Похоже скоро любая микроволновка или пылесос смогут бесконечно с вами разговаривать за жизнь.
Кроме шуток - это реально круто, автономные девайсы с мета-chatGPT на борту без подключения к интернету.
Ну и похоже большая языковая модель LLaMA от Меты, скоро будет играть роль Stable Diffusion в области генерации диалогов. Ее выпустили на свободу, а слово, как известно, не воробей, его уже не поймаешь (хотя тут напрашивается шутка про бота Google Sparrow).
Ждем Automatic1111 для LLaMA с возможность дообучения и запуска на ноутбуках.
https://twitter.com/miolini/status/1634982361757790209
Похоже скоро любая микроволновка или пылесос смогут бесконечно с вами разговаривать за жизнь.
Кроме шуток - это реально круто, автономные девайсы с мета-chatGPT на борту без подключения к интернету.
Ну и похоже большая языковая модель LLaMA от Меты, скоро будет играть роль Stable Diffusion в области генерации диалогов. Ее выпустили на свободу, а слово, как известно, не воробей, его уже не поймаешь (хотя тут напрашивается шутка про бота Google Sparrow).
Ждем Automatic1111 для LLaMA с возможность дообучения и запуска на ноутбуках.
https://twitter.com/miolini/status/1634982361757790209
X (formerly Twitter)
Artem Andreenko (@miolini) on X
I've sucefully runned LLaMA 7B model on my 4GB RAM Raspberry Pi 4. It's super slow about 10sec/token. But it looks we can run powerful cognitive pipelines on a cheap hardware.
👍23🔥3❤2
Добро пожаловать в эпоху general закрытого AI
cdn.openai.com/papers/gpt-4.pdf
This report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar.
Когда в 2019 году OpenAI не зарелизила GPT-2, мы были удивлены, потому что это был первый громкий пример "модель натренирована на публичных данных, но недоступна". Сейчас мы имеем первый громкий пример рисёча в современном AI, который полностью приватен.
Почему так получилось? Я бы сказал причины две: деньги и политика.
Успех ChatGPT показал что генеративные системы скоро станут частью нашей повседневной жизни. Люди готовы принимать их недостатки, потому что эти модели позволяют решать задачи которые было невозможно решать раньше. И когда люди готовы использовать эти модели, они делают продукты и хотят заработать на них. OpenAI теперь знает насколько большой их рынок и надо хранить корпоративные секреты.
Вторая причина уже ближе к тому о чём говорит OpenAI: safety. Когда ваша языковая модель может пройти Uniform Bar Exam — главный экзамен юриста в США, к которому люди готовятся по 5+ лет — и пройти его не по минимальной планке, а лучше 90% людей это немного напрягает и заставляет задумываться о том как можно подобную модель применить. И дело не только в bar exam, но и в экзамене по экономике, истории, политологии, статистике, математике и физике. Единственный экзамен который модель завалила на удивление “AP English Literature and Composition”. Немного контекста: GPT-4 сдал GRE по математике хуже меня, по writing на том же уровне что и я, а verbal сильно лучше меня.
Дальше мы вспоминаем недавний пост OpenAI Planning for AGI and Beyond. Одним из пунктов было "we think it’s important that major world governments have insight about training runs above a certain scale". Я не удивлюсь если OpenAI и правда общались с правительством и не исключаю что идея не релизить никакой информации о том как модель была натренирована могла родиться в этом контексте.
Мы уже сейчас видим движение AI из рисёча в индустрию. Например знакомый из Meta AI скзал что значительная часть команды в NYC ушла в стартапы. Я думаю уже скоро мы увидем новые продукты потрясающие воображение. Но большинство из этих продуктов не будут статьями на архиве.
To be updated.
cdn.openai.com/papers/gpt-4.pdf
This report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar.
Когда в 2019 году OpenAI не зарелизила GPT-2, мы были удивлены, потому что это был первый громкий пример "модель натренирована на публичных данных, но недоступна". Сейчас мы имеем первый громкий пример рисёча в современном AI, который полностью приватен.
Почему так получилось? Я бы сказал причины две: деньги и политика.
Успех ChatGPT показал что генеративные системы скоро станут частью нашей повседневной жизни. Люди готовы принимать их недостатки, потому что эти модели позволяют решать задачи которые было невозможно решать раньше. И когда люди готовы использовать эти модели, они делают продукты и хотят заработать на них. OpenAI теперь знает насколько большой их рынок и надо хранить корпоративные секреты.
Вторая причина уже ближе к тому о чём говорит OpenAI: safety. Когда ваша языковая модель может пройти Uniform Bar Exam — главный экзамен юриста в США, к которому люди готовятся по 5+ лет — и пройти его не по минимальной планке, а лучше 90% людей это немного напрягает и заставляет задумываться о том как можно подобную модель применить. И дело не только в bar exam, но и в экзамене по экономике, истории, политологии, статистике, математике и физике. Единственный экзамен который модель завалила на удивление “AP English Literature and Composition”. Немного контекста: GPT-4 сдал GRE по математике хуже меня, по writing на том же уровне что и я, а verbal сильно лучше меня.
Дальше мы вспоминаем недавний пост OpenAI Planning for AGI and Beyond. Одним из пунктов было "we think it’s important that major world governments have insight about training runs above a certain scale". Я не удивлюсь если OpenAI и правда общались с правительством и не исключаю что идея не релизить никакой информации о том как модель была натренирована могла родиться в этом контексте.
Мы уже сейчас видим движение AI из рисёча в индустрию. Например знакомый из Meta AI скзал что значительная часть команды в NYC ушла в стартапы. Я думаю уже скоро мы увидем новые продукты потрясающие воображение. Но большинство из этих продуктов не будут статьями на архиве.
To be updated.
👍37😢6👏5👎2🤔2🔥1
DL in NLP
О скором релизе GPT-4 Тут какой-то менеджер в Microsoft Berlin на митапе сказал что на следующей неделе будет анонс модели. Это звучит очень круто и консистентно со слухами. Давайте суммаризируем что мы слышали о модели: 1. Выйдет в феврале (почти) 1. Такой…
Пока GPT-4 генерирует мою следующую статью, сделаем быстрый ретроспективный анализ слухов.
✅ Модель вышла
✅ Копмьют вырос в 10 тысяч раз, так что похоже на правду
🤷♂️ Не знаем sparse ли
✅ Всё так, опять SOTA с огромным отрывом от остальных, включая 90% американских юристов
✅ Мультимодальность: картинки и текст
❌ Мультимодальность: аудио и протеины
❌ Мультимодальность: генерация
🤷♂️ Не знаем сколько GPU, только знаем что закончили а Августе
✅ Дефолтная длина 8К, но 32K тоже есть
✅ Модель вышла
✅ Копмьют вырос в 10 тысяч раз, так что похоже на правду
🤷♂️ Не знаем sparse ли
✅ Всё так, опять SOTA с огромным отрывом от остальных, включая 90% американских юристов
✅ Мультимодальность: картинки и текст
❌ Мультимодальность: аудио и протеины
❌ Мультимодальность: генерация
🤷♂️ Не знаем сколько GPU, только знаем что закончили а Августе
✅ Дефолтная длина 8К, но 32K тоже есть
👍14😁6❤1🔥1
https://www.youtube.com/watch?v=outcGtbnMuQ
Смотрит 100К людей. На уровне презентаций эпл по-моему ахах (на самом деле нет)
UPD: Но никаких доп подробностей о модели, единственное что было интересно — sneak peak нового image API для GPT-4
Смотрит 100К людей. На уровне презентаций эпл по-моему ахах (на самом деле нет)
UPD: Но никаких доп подробностей о модели, единственное что было интересно — sneak peak нового image API для GPT-4
YouTube
GPT-4 Developer Livestream
Join Greg Brockman, President and Co-Founder of OpenAI, at 1 pm PT for a developer demo showcasing GPT-4 and some of its capabilities/limitations.
Join the conversation on Discord here: discord.gg/openai. We'll be taking audience input from #gpt4-demo-suggestions.
Join the conversation on Discord here: discord.gg/openai. We'll be taking audience input from #gpt4-demo-suggestions.
👍6❤1