Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning
arxiv.org/abs/2303.15647
Наша новая статья! Мы обозреваем методы parameter-efficient fine-tuning: от простых и популярных типа adapters или LoRa до более хитрых типа Compacter или KronA.
Продублирую сюда моё короткое описание статьи из твиттера.
PEFT methods can target several things: storage efficiency, multitask inference efficiency, and memory efficiency are among them. We are interested in the case of fine-tuning large models, so memory efficiency is a must.
I feel like everyone knows about Adapters, BitFit, and LoRa, but there are even better methods out there! In the last two years, low-rank methods took off.
Compacter and KronA use a more rank-efficient way to get large matrices. Kronecker product is the new matmul for PEFT.
We dive into the details of 20 different PEFT methods in the paper. Still, because we understand not everyone has the time to read the full 15 pages, we highlight a one-sentence description of each method and provide a pseudocode!
arxiv.org/abs/2303.15647
Наша новая статья! Мы обозреваем методы parameter-efficient fine-tuning: от простых и популярных типа adapters или LoRa до более хитрых типа Compacter или KronA.
Продублирую сюда моё короткое описание статьи из твиттера.
PEFT methods can target several things: storage efficiency, multitask inference efficiency, and memory efficiency are among them. We are interested in the case of fine-tuning large models, so memory efficiency is a must.
I feel like everyone knows about Adapters, BitFit, and LoRa, but there are even better methods out there! In the last two years, low-rank methods took off.
Compacter and KronA use a more rank-efficient way to get large matrices. Kronecker product is the new matmul for PEFT.
We dive into the details of 20 different PEFT methods in the paper. Still, because we understand not everyone has the time to read the full 15 pages, we highlight a one-sentence description of each method and provide a pseudocode!
🔥40👍11❤3
Forwarded from Сиолошная
Умный ассистент Siri появился больше 10 лет назад, в 2011. Кажется, что многие тогда думали "ухххх через 10-то лет будет такой умной! Настоящий ИИ!"
Парень с твиттера прикрутил к Siri в Apple Watch вызовы GPT-4. Далее он сказал своим часам, мол, мне надо в репозиторий с моим проектом добавить вот такую кнопку, так и так, можешь помочь?". Дальше происходит магия, и на GitHub появляется пулл-реквест от GPT-шки, с написанным кодом.
Ухххх поскорее бы аналог Джарвиса из "Железного Человека"...
3-минутное видео с демонстрацией: https://fxtwitter.com/i/status/1641204093074145281
Парень с твиттера прикрутил к Siri в Apple Watch вызовы GPT-4. Далее он сказал своим часам, мол, мне надо в репозиторий с моим проектом добавить вот такую кнопку, так и так, можешь помочь?". Дальше происходит магия, и на GitHub появляется пулл-реквест от GPT-шки, с написанным кодом.
Ухххх поскорее бы аналог Джарвиса из "Железного Человека"...
3-минутное видео с демонстрацией: https://fxtwitter.com/i/status/1641204093074145281
🤯42🔥7👍4❤1😢1
Forwarded from gonzo-обзоры ML статей
И ещё одно, что сложно не запостить (но сложно и прочитать ибо пейволл)
Гугл объединил все свои силы с DeepMind и делает проект Gemini чтобы догнать OpenAI с GPT-4. Jacob Devlin (помните BERT?) при этом ушёл в OpenAI. И также большой шум про то, что Bard обучался на результатах ChatGPT, что типа нельзя по ToS.
https://www.theinformation.com/articles/alphabets-google-and-deepmind-pause-grudges-join-forces-to-chase-openai
Гугл объединил все свои силы с DeepMind и делает проект Gemini чтобы догнать OpenAI с GPT-4. Jacob Devlin (помните BERT?) при этом ушёл в OpenAI. И также большой шум про то, что Bard обучался на результатах ChatGPT, что типа нельзя по ToS.
https://www.theinformation.com/articles/alphabets-google-and-deepmind-pause-grudges-join-forces-to-chase-openai
The Information
Alphabet’s Google and DeepMind Pause Grudges, Join Forces to Chase OpenAI
OpenAI’s success in overtaking Google with an artificial intelligence–powered chatbot has achieved what seemed impossible in the past: It has forced the two AI research teams within Google’s parent, Alphabet, to overcome years of intense rivalry to work together.…
👍4❤1😁1🤔1
Кажется у нас в этом году будет очень много драм. Запасаемся попкорном.
👍23🌭10💯4💔2🤪2❤1
Слухи о гиганской языковой модели от Google
twitter.com/o42nl/status/1642204593206509568
Гонкавооружений языковых моделей в самом разгаре и понятно что гугл один из первых кто в неё включился: у них очень сильная рисеч команда, свой уникальный hardware который уже проверен at scale - TPU Pod. Ну и ещё бизнес гугла реально может быть под угрозой - ChatGPT и бинг уже немного его подъели.
Суть слуха:
1. Тридцать триллионов параметров - в 170 раз больше GPT-3
1. Архитектура основана на PALM - FFN и Attention параллельны друг другу, что позволяет проще скейлиться на большое число TPU
1. Тренируется на восьми TPUv4 Pods - в сумме 16 тысяч TPU-чипов
1. Использует некую новую форму scaling law, что насекает на серьезные изменения в архитектуре - скорее всего MoE, но может быть и ещё что-то
1. Мультимодальность - текст, картинки, видео, аудио, и векторы состояния роботов
Модель будет анонсирована на Google I/O в Мае
И все это первоапрельская шутка на которую я попался 😂
twitter.com/o42nl/status/1642204593206509568
Гонка
Суть слуха:
1. Тридцать триллионов параметров - в 170 раз больше GPT-3
1. Архитектура основана на PALM - FFN и Attention параллельны друг другу, что позволяет проще скейлиться на большое число TPU
1. Тренируется на восьми TPUv4 Pods - в сумме 16 тысяч TPU-чипов
1. Использует некую новую форму scaling law, что насекает на серьезные изменения в архитектуре - скорее всего MoE, но может быть и ещё что-то
1. Мультимодальность - текст, картинки, видео, аудио, и векторы состояния роботов
Модель будет анонсирована на Google I/O в Мае
🖕92😁43🤡32👍8😢4❤3🤮3
Исследование: восприятие искусства
Международная лаборатория экспериментальной и поведенческой экономики ВШЭ проводит исследования того, какие эмоции могут вызвать те или иные изображения. Подробнее о проекте тут.
Сейчас авторы работы приглашают добровольцев поучаствовать в этом исследовании, для чего создали специального бота.
Приложение запускается в telegram
по ссылке 📲 https://www.tgoop.com/galaimagebot
👉 @galaimagebot
🎯 онлайн формат, анонимность
⏰ 5-7 минут время прохождения
🎁 В качестве бонуса среди всех участников будет разыгран ценный приз
#промо
Международная лаборатория экспериментальной и поведенческой экономики ВШЭ проводит исследования того, какие эмоции могут вызвать те или иные изображения. Подробнее о проекте тут.
Сейчас авторы работы приглашают добровольцев поучаствовать в этом исследовании, для чего создали специального бота.
Приложение запускается в telegram
по ссылке 📲 https://www.tgoop.com/galaimagebot
👉 @galaimagebot
🎯 онлайн формат, анонимность
⏰ 5-7 минут время прохождения
🎁 В качестве бонуса среди всех участников будет разыгран ценный приз
#промо
❤10👾2👍1
Одной строкой #14
Давно не было подборок новостей, пора это исправить
1. Новая версия bitsandbytes: поддержка 8-bit Lion, который в 8 раз дешевле Adam и сериализация сразу в 8bit, чтобы ваши модели занимали в 2 раза меньше storage
1. Пост Greg Brockman о том, что alignment становится всё важнее и что возможно стоит переходить от больших релизов новых моделей раз в 3 года к более итеративным релизам, например промежуточным чекпоинтам тренируемой модели
1. BigCode/santacoder — опенсорсная 1.1B модель натренированная на Python, Java, Javascript. Использует multiquery attention, который шарит K и V между головами, очень сильно сокращая потребрление памяти.
1. DeepSpeed Chat — RLHF оптимизированный с помощью PEFT и трюков DeepSpeed. Позволяет впихать невпихуемое — тренировать 7B на одной GPU.
1. Robots that learn from videos of human activities — последнее время от фейсбука статьи по роботам пошли прямо потоком. Вот зарелизили большой датасет и рассказали про модельку по task-oriented end2end robot control.
1. Teaching Large Language Models to Self-Debug — новая статья от гугла о том как научить языковые модельки итеративно улучшать и дебажить свой код. SOTA на Spider и TransCoder
Новости от подписчиков 🔥
1. Большая подборка новостей об LLM за прошлую неделю
1. PokiToki — опенсорсный интерфейс для ChatGPT в телеге. Поддерживает DM и группы, может сам ходить по ссылкам, есть генерация изображений через DALLE-2.
Давно не было подборок новостей, пора это исправить
1. Новая версия bitsandbytes: поддержка 8-bit Lion, который в 8 раз дешевле Adam и сериализация сразу в 8bit, чтобы ваши модели занимали в 2 раза меньше storage
1. Пост Greg Brockman о том, что alignment становится всё важнее и что возможно стоит переходить от больших релизов новых моделей раз в 3 года к более итеративным релизам, например промежуточным чекпоинтам тренируемой модели
1. BigCode/santacoder — опенсорсная 1.1B модель натренированная на Python, Java, Javascript. Использует multiquery attention, который шарит K и V между головами, очень сильно сокращая потребрление памяти.
1. DeepSpeed Chat — RLHF оптимизированный с помощью PEFT и трюков DeepSpeed. Позволяет впихать невпихуемое — тренировать 7B на одной GPU.
1. Robots that learn from videos of human activities — последнее время от фейсбука статьи по роботам пошли прямо потоком. Вот зарелизили большой датасет и рассказали про модельку по task-oriented end2end robot control.
1. Teaching Large Language Models to Self-Debug — новая статья от гугла о том как научить языковые модельки итеративно улучшать и дебажить свой код. SOTA на Spider и TransCoder
Новости от подписчиков 🔥
1. Большая подборка новостей об LLM за прошлую неделю
1. PokiToki — опенсорсный интерфейс для ChatGPT в телеге. Поддерживает DM и группы, может сам ходить по ссылкам, есть генерация изображений через DALLE-2.
❤20🔥11
ML-разработчики, хотите создать что-то действительно уникальное? Присоединяйтесь к IT-команде Сбера и приступайте к работе над русской версией ChatGPT 🖥
Чем предстоит заниматься?
• Довести качество русской версии до ChatGPT и даже обогнать его
• Придумывать и реализовывать новые варианты применения LLM
• Находить решения бизнес-задач с помощью технологии Сбера.
Если у вас есть опыт обучения моделей, знание математики, алгоритмов, а еще вы не боитесь экспериментировать — переходите по ссылке, смотрите все условия и откликайтесь на вакансию 💚
#промо
Чем предстоит заниматься?
• Довести качество русской версии до ChatGPT и даже обогнать его
• Придумывать и реализовывать новые варианты применения LLM
• Находить решения бизнес-задач с помощью технологии Сбера.
Если у вас есть опыт обучения моделей, знание математики, алгоритмов, а еще вы не боитесь экспериментировать — переходите по ссылке, смотрите все условия и откликайтесь на вакансию 💚
#промо
💩69👎38👍27🤮9😁4🎃2🔥1🤔1😐1
🤗 Transformers 4.28
github.com/huggingface/transformers/releases/tag/v4.28.0
Новый минорный апдейт твоей любимой библиотеки с парой важных улучшений.
1. LLaMa! Веса конечно официально нельзя, но код теперь в библиотеке (да и веса на хабе если постараться можно найти)
1. Больше мультимодальности: Pix2Struct, MatCha, DePlot
1. GPTBigCode - трансформер с multi-query attention вместо обычного multi-head attention. Нужен для SantaCoder от BigCode
1. NLLB-MoE - mixture of experts из статьи no language left behind
1. 8-bit serialization
github.com/huggingface/transformers/releases/tag/v4.28.0
Новый минорный апдейт твоей любимой библиотеки с парой важных улучшений.
1. LLaMa! Веса конечно официально нельзя, но код теперь в библиотеке (да и веса на хабе если постараться можно найти)
1. Больше мультимодальности: Pix2Struct, MatCha, DePlot
1. GPTBigCode - трансформер с multi-query attention вместо обычного multi-head attention. Нужен для SantaCoder от BigCode
1. NLLB-MoE - mixture of experts из статьи no language left behind
1. 8-bit serialization
GitHub
Release v4.28.0: LLaMa, Pix2Struct, MatCha, DePlot, MEGA, NLLB-MoE, GPTBigCode · huggingface/transformers
LLaMA
The LLaMA model was proposed in LLaMA: Open and Efficient Foundation Language Models. It is a collection of foundation language models ranging from 7B to 65B parameters. You can request acces...
The LLaMA model was proposed in LLaMA: Open and Efficient Foundation Language Models. It is a collection of foundation language models ranging from 7B to 65B parameters. You can request acces...
👍14❤9🔥6🤗1
Кстати заметили как все компании которые начинали с "ClosedAI ужасные и не релизят веса, мы будем другими и по-настоящему открытыми" постепенно перестают выкатывать тренировочный код, потом и веса, а потом и статьи описывающие их новые модели? Тем самым полностью повторяя путь GPT2 -> GPT3 -> GPT4
Это был пинок в сторону Stability.ai и Stable Diffusion XL если что
UPD: всё-таки обещают в будущем выложить, будем смотреть
Это был пинок в сторону Stability.ai и Stable Diffusion XL если что
UPD: всё-таки обещают в будущем выложить, будем смотреть
Stability AI
Stable Diffusion XL Beta Available for API Customers and DreamStudio Users — Stability AI
SDXL is the latest addition to the Stable Diffusion suite of models offered through Stability’s APIs catered to enterprise developers. SDXL produces more detailed imagery and composition than its predecessor Stable Diffusion 2.1 and represents an important…
😢36👍8❤1
Результаты поиска «as an AI language model» в Твиттере.
twitter.com/jsrailton/status/1647812843239088129
Заставляет задуматься. А ещё хорошо что моделька всё-таки, пусть неидеально, но умеет отказывать на запросы сгенерировать hateful content.
twitter.com/jsrailton/status/1647812843239088129
Заставляет задуматься. А ещё хорошо что моделька всё-таки, пусть неидеально, но умеет отказывать на запросы сгенерировать hateful content.
👍27🤣14
Google Brain + DeepMind = Google DeepMind
deepmind.com/blog/announcing-google-deepmind
DeepMind и Google Brain объединили. Демис Хассабис останется во главе, но теперь у них появится и VP of Product. С продуктами у гугла традиционно плохо получается, надеюсь что тут будет лучше.
DeepMind и Google Brain одни из самых крутых рисёч-организаций. DeepMind придумал AlphaGo, AlphaZero, Starcraft, AlphaFold, Chinchilla, VQ-VAE. Google Brain: Transformers, BERT, MoE, Diffusion. Достижения можно перечислять долго, будем надяется что реструктуризация не сильно скажется на командах.
Но в то же время наличие VP of Product намекает на то что статей вы больше особо не ждите. И мы сейчас это видим повсюду. Я на днях выяснил что всю команду FAIR занимающуюся языковыми моделями тоже реструктурировали и теперь они будут пилить внутренние сетки Meta вместо статей.
deepmind.com/blog/announcing-google-deepmind
DeepMind и Google Brain объединили. Демис Хассабис останется во главе, но теперь у них появится и VP of Product. С продуктами у гугла традиционно плохо получается, надеюсь что тут будет лучше.
DeepMind и Google Brain одни из самых крутых рисёч-организаций. DeepMind придумал AlphaGo, AlphaZero, Starcraft, AlphaFold, Chinchilla, VQ-VAE. Google Brain: Transformers, BERT, MoE, Diffusion. Достижения можно перечислять долго, будем надяется что реструктуризация не сильно скажется на командах.
Но в то же время наличие VP of Product намекает на то что статей вы больше особо не ждите. И мы сейчас это видим повсюду. Я на днях выяснил что всю команду FAIR занимающуюся языковыми моделями тоже реструктурировали и теперь они будут пилить внутренние сетки Meta вместо статей.
🫡57😢8🔥2🎅1💅1
Shall We Pretrain Autoregressive Language Models with Retrieval?
arxiv.org/abs/2304.06762
NVIDIA повторила RETRO от DeepMind вплоть до 9.5B параметров с retreival-database в 330B токенов. Главный вопрос: нужно ли нам предобучать модели с ретривом или лучше тренировать обычные LM? Ретрив побеждает (с небольшим отрывом). Такие модели меньше страдают от повторения собственных токенов, у них лучше фактологическая точность, и даже немного более низкая токсичность.
Код доступен в Megatron, весов нет.
arxiv.org/abs/2304.06762
NVIDIA повторила RETRO от DeepMind вплоть до 9.5B параметров с retreival-database в 330B токенов. Главный вопрос: нужно ли нам предобучать модели с ретривом или лучше тренировать обычные LM? Ретрив побеждает (с небольшим отрывом). Такие модели меньше страдают от повторения собственных токенов, у них лучше фактологическая точность, и даже немного более низкая токсичность.
Код доступен в Megatron, весов нет.
👍15❤1