Forwarded from Техножрица 👩💻👩🏫👩🔧
Дорогие читатели!
Сегодня я сделала шпаргалку по самым известным научным конференциям уровня A* (по CORE2023), связанным с машинным обучением. Большими сойджеками выделены конференции с более высоким h5-индексом в Google Scholar, а маленькими - с h5-индексом поменьше. Забирайте на стену, чтобы не забыть, куда подавать статьи, чтобы потом делать самое сойджековское лицо в своем офисе!
#ML_в_мемах
Сегодня я сделала шпаргалку по самым известным научным конференциям уровня A* (по CORE2023), связанным с машинным обучением. Большими сойджеками выделены конференции с более высоким h5-индексом в Google Scholar, а маленькими - с h5-индексом поменьше. Забирайте на стену, чтобы не забыть, куда подавать статьи, чтобы потом делать самое сойджековское лицо в своем офисе!
#ML_в_мемах
👍33❤9🤮2
Effective Long-Context Scaling of Foundation Models
Xiong, Liu, et al., [FAIR]
arxiv.org/abs/2309.16039
Команда LLaMA взяла датасет с длинными текстами, (400B токенов в сумме), и увеличили контекст LLaMA2 с 4K до 32K токенов. Важный трюк: увеличить период RoPE embeddings с 10K до 50K.
Что интересно, выяснилось что предобучать модели на длинных контекстах с самого начала смысла нет. Для этого предобучили несколько LLaMA7B с нуля. Один из них всё время тренировался c 32K-len, другие модели первые 20/40/80% обучения тренировались с 4K, после чего прееключались на 32K. Разница получилась минимальной.
Кроме этого показали scaling law с длинной контекста (см. картинку). Это удобно тем что можно наперёд предсказывать лосс и использовать это как sanity check того что ваша тренировка идёт хорошо.
Финальные модельки обходят всё что есть в опенсорсе (на тот момент Mistral ещё не было). По метрикам в статье, включая human eval, LLaMA2 Long 70B работает так же хорошо как и chatgpt-3.5-16k.
Xiong, Liu, et al., [FAIR]
arxiv.org/abs/2309.16039
Команда LLaMA взяла датасет с длинными текстами, (400B токенов в сумме), и увеличили контекст LLaMA2 с 4K до 32K токенов. Важный трюк: увеличить период RoPE embeddings с 10K до 50K.
Что интересно, выяснилось что предобучать модели на длинных контекстах с самого начала смысла нет. Для этого предобучили несколько LLaMA7B с нуля. Один из них всё время тренировался c 32K-len, другие модели первые 20/40/80% обучения тренировались с 4K, после чего прееключались на 32K. Разница получилась минимальной.
Кроме этого показали scaling law с длинной контекста (см. картинку). Это удобно тем что можно наперёд предсказывать лосс и использовать это как sanity check того что ваша тренировка идёт хорошо.
Финальные модельки обходят всё что есть в опенсорсе (на тот момент Mistral ещё не было). По метрикам в статье, включая human eval, LLaMA2 Long 70B работает так же хорошо как и chatgpt-3.5-16k.
❤43🤯9🔥3
Новый дайджест из мира NLP
1. Лекции MIT по эффективному DL
1. Гайд по distributed training и PEFT
1. Deep Neural Networks Tend to Extrapolate Predictably — чем более OOD инпут тем больше решение сходится к среднему ответу (лучшему input-independent ответу)
1. Ring Attention with Blockwise Transformers for Near-Infinite Context — эффективная коммуникация для параллелизации attention между разными GPU
1. Value-Guided Monte-Carlo Tree Search decoding — MCTS применили к NLP и получилось отлично
Надеюсь что у вас все хорошо
🇮🇱
1. Лекции MIT по эффективному DL
1. Гайд по distributed training и PEFT
1. Deep Neural Networks Tend to Extrapolate Predictably — чем более OOD инпут тем больше решение сходится к среднему ответу (лучшему input-independent ответу)
1. Ring Attention with Blockwise Transformers for Near-Infinite Context — эффективная коммуникация для параллелизации attention между разными GPU
1. Value-Guided Monte-Carlo Tree Search decoding — MCTS применили к NLP и получилось отлично
Надеюсь что у вас все хорошо
🇮🇱
Sumanth's Personal Website
Everything about Distributed Training and Efficient Finetuning | Sumanth's Personal Website
A deep dive into distributed training and efficient finetuning - DeepSpeed ZeRO, FSDP, practical guidelines and gotchas with multi-GPU and multi-node training
🔥40❤10👍7😁1
Google закроет и этот продукт #293
Когда конкуренты в виде WandB и CometML начали давить на Tensorboard, гугл решил что их проблема не ненадёжный интерфейс, не невозможность строить графики с любыми X и Y уже после того как вы всё залогали, или очень убогий логгинг гиперпараметров. Гугл решили что проблема в том что у них нету своего облака для лога экспериментов и сделали tensorboard.dev
Сегодня это облако закрывается. Если вы храните на нём что-то полезное, в имеиле описано как это скачать.
Но серьёзно, кто-то ещё пользуется tensorboard вместо wandb/clearml?
Когда конкуренты в виде WandB и CometML начали давить на Tensorboard, гугл решил что их проблема не ненадёжный интерфейс, не невозможность строить графики с любыми X и Y уже после того как вы всё залогали, или очень убогий логгинг гиперпараметров. Гугл решили что проблема в том что у них нету своего облака для лога экспериментов и сделали tensorboard.dev
Сегодня это облако закрывается. Если вы храните на нём что-то полезное, в имеиле описано как это скачать.
Но серьёзно, кто-то ещё пользуется tensorboard вместо wandb/clearml?
😁28👍2😢2❤1
Forwarded from gonzo-обзоры ML статей
Я таки добрался поразвлекаться с GPT-4V и старыми картинками из классической работы:
https://gonzoml.substack.com/p/building-machines-that-learn-and
https://gonzoml.substack.com/p/building-machines-that-learn-and
Gonzo ML
"Building Machines That Learn and Think Like People", 7 years later
In the post about GPT-4V, I mentioned the paper “Building Machines That Learn and Think Like People” (https://arxiv.org/abs/1604.00289) by Brenden Lake, Tomer Ullman, Joshua Tenenbaum, and Samuel Gershman. In that seminal paper the authors suggested that…
🔥23👍2❤1🥱1
Large Language Models (in 2023)
Видео, слайды
Лекция от Hyung Won Chung из OpenAI о языковых модельках. Где мы находимся и куда мы идём. Очень рекомендую, а вот короткий пересказ:
Perspective of "Yet"
Если что-то не работает на текущем размере LLM, не стоит думать что это в принципе не работает, мы это много раз видели. Те свойства моделей которые мы нашли в 2022 могут не быть в моделях 2024 года. Из-за этого те кто только погружаются в DL могут иногда иметь лучшую интуицию чем те кто там уже давно и выработал её за предыдущие 10 лет. А ещё пишите свои скрипты так чтобы вы могли перезапустить их через год на новых модельках 😅
How is the scaling actually done?
Натренировать самую большую в мире модель гораздо сложнее чем просто написать новый конфиг где в 20 раз больше слоёв. Для эффективного использования серверов надо правильно понимать боттлеки в системах текущего размера и того размера которые вы хотите тренировать. Они могут быть разными.
Рассказал почему GSPMD так крут, и я теперь понял почему гугловцы так любили Mesh-Tensorflow. Для того чтобы параллелизовать матричное умножение в нём одновременно по нескольких осям (data parallel + tensor parallel + model parallel) вам не нужно переписывать модель, вы просто декорируете
Post-training
Тут классический рассказ о том как работает RLHF
Can we learn an objective function?
В RLHF мы больше не задаём reward-функцию, она выучивается другой моделью. Hyung Won Chung делает ещё один шаг и говорит что кросс-энтропия это серьёзный текущий боттлнек тк она может учить модель только очень конкретным вещам, таким как предсказание следующего токена. Возможно будущие модели мы будем учить на более абстрактых reward-функциях вместо этого. По аналогии с тем что мы со вреенем отказались от hand-written фичей в пользу DL и скоро мы откажемся от hand-written objective functions в пользу выучивания reward model.
Последний тейк интересен, мне лично в это не очень верится (так что скорее всего правда 🤣)
Видео, слайды
Лекция от Hyung Won Chung из OpenAI о языковых модельках. Где мы находимся и куда мы идём. Очень рекомендую, а вот короткий пересказ:
Perspective of "Yet"
Если что-то не работает на текущем размере LLM, не стоит думать что это в принципе не работает, мы это много раз видели. Те свойства моделей которые мы нашли в 2022 могут не быть в моделях 2024 года. Из-за этого те кто только погружаются в DL могут иногда иметь лучшую интуицию чем те кто там уже давно и выработал её за предыдущие 10 лет. А ещё пишите свои скрипты так чтобы вы могли перезапустить их через год на новых модельках 😅
How is the scaling actually done?
Натренировать самую большую в мире модель гораздо сложнее чем просто написать новый конфиг где в 20 раз больше слоёв. Для эффективного использования серверов надо правильно понимать боттлеки в системах текущего размера и того размера которые вы хотите тренировать. Они могут быть разными.
Рассказал почему GSPMD так крут, и я теперь понял почему гугловцы так любили Mesh-Tensorflow. Для того чтобы параллелизовать матричное умножение в нём одновременно по нескольких осям (data parallel + tensor parallel + model parallel) вам не нужно переписывать модель, вы просто декорируете
train_step
и пишите по каким осям тензоров он распределяется.Post-training
Тут классический рассказ о том как работает RLHF
Can we learn an objective function?
В RLHF мы больше не задаём reward-функцию, она выучивается другой моделью. Hyung Won Chung делает ещё один шаг и говорит что кросс-энтропия это серьёзный текущий боттлнек тк она может учить модель только очень конкретным вещам, таким как предсказание следующего токена. Возможно будущие модели мы будем учить на более абстрактых reward-функциях вместо этого. По аналогии с тем что мы со вреенем отказались от hand-written фичей в пользу DL и скоро мы откажемся от hand-written objective functions в пользу выучивания reward model.
Последний тейк интересен, мне лично в это не очень верится (так что скорее всего правда 🤣)
YouTube
Large Language Models (in 2023)
I gave a talk at Seoul National University.
I titled the talk “Large Language Models (in 2023)”. This was an ambitious attempt to summarize our exploding field.
Trying to summarize the field forced me to think about what really matters in the field. While…
I titled the talk “Large Language Models (in 2023)”. This was an ambitious attempt to summarize our exploding field.
Trying to summarize the field forced me to think about what really matters in the field. While…
🔥35👍7❤5🥰2
Efficient Streaming Language Models with Attention Sinks
Xiao et al
arxiv.org/abs/2309.17453
Github
Забавная статья где делают так чтобы трансформеры генерировали текст бесконечно
Идея похожа на Recurrent Memory Transformer: мы считаем attention не на всех токенах, а только на последних L и нескольких первых
Логика: в attention maps первые токены используются моделями как некоторая attention-помойка. Если их убрать и наивно переиспользовать kv-cache следующих токенов для window attention нормализация softmax в attention сильно изменится и перплексия полетит в бесконечность
Авторы предложили добавить в начало текста 4 пустых токена и всегда держать их в kv-cache, когда остальные используются как в window attention. И внезапно это заработало даже без файнтюна
На мой взгляд, статья проводит линию между длинными контекстами и длинными текстами. Тут модель не может обращаться к информации из старых токенов. Это может быть не интересно с позиции чтения длинных текстов, но полезно с позиции деплоя и генерации
Xiao et al
arxiv.org/abs/2309.17453
Github
Забавная статья где делают так чтобы трансформеры генерировали текст бесконечно
Идея похожа на Recurrent Memory Transformer: мы считаем attention не на всех токенах, а только на последних L и нескольких первых
Логика: в attention maps первые токены используются моделями как некоторая attention-помойка. Если их убрать и наивно переиспользовать kv-cache следующих токенов для window attention нормализация softmax в attention сильно изменится и перплексия полетит в бесконечность
Авторы предложили добавить в начало текста 4 пустых токена и всегда держать их в kv-cache, когда остальные используются как в window attention. И внезапно это заработало даже без файнтюна
На мой взгляд, статья проводит линию между длинными контекстами и длинными текстами. Тут модель не может обращаться к информации из старых токенов. Это может быть не интересно с позиции чтения длинных текстов, но полезно с позиции деплоя и генерации
👍24🔥6❤1
Forwarded from Сиолошная
Год назад Adept.AI, стартап, основателем которого являлся первый автор оригинальной статьи Attention is all you need, представил модель ACT-1. Это был первый шаг на пути достижения их цели — автоматизации работы в браузере. Вместо выполнения задач вручную можно просто говорить "купи мне билеты до Барселоны на конец недели" — и по идее должно работать. И это было до ChatGPT!
Сейчас уже таких стартапов развелось пруд пруди, даже Sam Altman недавно проинвестировал в Induced.AI (фаундерам по 18-19 лет!), которые делают Zapier для браузера.
Но я чего пишу. Вчера они выложили в опенсорс маленькую версию своего мультимодального трансформера, который лежит под капотом продукта. Модель на 8 миллиардов параметров с максимально простой и понятной архитектурой — картинка нарезается на кусочки и подаётся в трансформер перед текстовым запросом. Среди особенностей:
1️⃣ разработана с нуля для digital-агентов, поэтому может поддерживать произвольные разрешения изображений, отвечать на вопросы о графиках и диаграммах, отвечать на вопросы, связанные с UI (по скриншотам), а также выполнять точную локализацию объектов на изображении
2️⃣ модель быстрая — можно получить ответы на большие изображения менее чем за 100 миллисекунд
3️⃣ модель заточена на их юзкейсы (браузерные агенты), но при этом хорошо работает и в стандартных тестах понимания изображений, таких как VQA и Image Captioning
В общем, если хочется парсить скриншоты или отвечать на вопросы по диграммам — можно присмотреться к модельке. OCR тоже рабоатет, причём, в двух режимах — понять текст в выделенной области и найти область, где написан заданный текст.
Ссылка на анонс
Ссылка на HF
Сейчас уже таких стартапов развелось пруд пруди, даже Sam Altman недавно проинвестировал в Induced.AI (фаундерам по 18-19 лет!), которые делают Zapier для браузера.
Но я чего пишу. Вчера они выложили в опенсорс маленькую версию своего мультимодального трансформера, который лежит под капотом продукта. Модель на 8 миллиардов параметров с максимально простой и понятной архитектурой — картинка нарезается на кусочки и подаётся в трансформер перед текстовым запросом. Среди особенностей:
В общем, если хочется парсить скриншоты или отвечать на вопросы по диграммам — можно присмотреться к модельке. OCR тоже рабоатет, причём, в двух режимах — понять текст в выделенной области и найти область, где написан заданный текст.
Ссылка на анонс
Ссылка на HF
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28👍5❤2👌1
Improving Image Generation with Better Captions
cdn.openai.com/papers/dall-e-3.pdf
Внезапно, OpenAI выложили статью (не model card) с описанием куска DALL-E 3.
Главная цель — улучшить prompt following. Решили что проблема на самом деле в качестве датасета. После чего натренировали хорошую систему для imagine captioning на основе LLM и сгенерировали очнь подробные описания картинок из датасета. Финальный тренировочный датасет состоял на 95% из псевдооейблов.
Деталей про саму тренировку DALL-E 3 мало, только лишь сказали что детали заметно отличаются от DALLE-2. Хотя бы не было лицемерного «это все для вашей безопасности» в этой части статьи.
cdn.openai.com/papers/dall-e-3.pdf
Внезапно, OpenAI выложили статью (не model card) с описанием куска DALL-E 3.
Главная цель — улучшить prompt following. Решили что проблема на самом деле в качестве датасета. После чего натренировали хорошую систему для imagine captioning на основе LLM и сгенерировали очнь подробные описания картинок из датасета. Финальный тренировочный датасет состоял на 95% из псевдооейблов.
Деталей про саму тренировку DALL-E 3 мало, только лишь сказали что детали заметно отличаются от DALLE-2. Хотя бы не было лицемерного «это все для вашей безопасности» в этой части статьи.
🤡19👍6❤1🔥1
Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса
Хороший мини-курс по лингвистике для NLPшников недавно выпустила Лиза Былинина: bylinina.github.io/ling_course.
Зачем эта наука нам вообще нужна? Не столько даже для того, чтобы решать задачи с её помощью, а чтобы правильно задачи ставить и описывать проблемы.
Для меня в последний год, когда я много работаю с языками, которых не понимаю, это особенно важно: нужен понятийный набор, чтобы адекватно такие языки обсуждать.
Поэтому - рекомендую.
Зачем эта наука нам вообще нужна? Не столько даже для того, чтобы решать задачи с её помощью, а чтобы правильно задачи ставить и описывать проблемы.
Для меня в последний год, когда я много работаю с языками, которых не понимаю, это особенно важно: нужен понятийный набор, чтобы адекватно такие языки обсуждать.
Поэтому - рекомендую.
👌31👍10🔥3✍2
Тут прошла PyTorch Conference 2023
linuxfoundation.org/blog/-pytorch-conference-2023-news
На ней показали ExecuTorch, такой маленький пайторч который умеет только в инференс, но быстрее, меньше, лучше. Пока внимательно не смотрел, но выглядит классно.
Спустя почти год после PyTorch 2.0.1. вышел 2.1. Из классных фичей: поддержка более динамических шейпов для torch.compile, но если я правильно понял если он у вас не работал то он и не заработает, лишь уменьшили число рекомпиляций. Новый distribudet.checkpoint выглядит очень круто, писать такое самому можно, но не хочется. Посмотрим как работает, когда будем тренировать что-то что не помещается в одну ноду. Torch.sparse теперь умеет в MxN sparsity которая появилась в предыдущем поколении nvidia.
В общем обновления торча выглядят неплохо, кажется раньше между новыми минорными не проходило настолько много времени. После того как pytorch вошел в linux foundation они будто стали медленнее развиваться. А ещё показали унылые программы сертификации на конференции и тут уже пахнеттрупами oracle. В общем к торчу не привыкайте, посмотрим что там нового у *JAX
Но чтобы не заканчивать на грустном, вот новые классные маленькие фичи:
1. torch.device теперь можно использовать как context manager 🔥
1. В LayerNorm теперь можно выключить bias 🔥
1. functorch.einops.rearrange 🔥🔥🔥
1. Allow non-uniform requires_grad for use_orig_params=True в FSDP (это личная радость, возможно теперь FSDP будет юзабельным)
1. Better function annotations for nn.functional
linuxfoundation.org/blog/-pytorch-conference-2023-news
На ней показали ExecuTorch, такой маленький пайторч который умеет только в инференс, но быстрее, меньше, лучше. Пока внимательно не смотрел, но выглядит классно.
Спустя почти год после PyTorch 2.0.1. вышел 2.1. Из классных фичей: поддержка более динамических шейпов для torch.compile, но если я правильно понял если он у вас не работал то он и не заработает, лишь уменьшили число рекомпиляций. Новый distribudet.checkpoint выглядит очень круто, писать такое самому можно, но не хочется. Посмотрим как работает, когда будем тренировать что-то что не помещается в одну ноду. Torch.sparse теперь умеет в MxN sparsity которая появилась в предыдущем поколении nvidia.
В общем обновления торча выглядят неплохо, кажется раньше между новыми минорными не проходило настолько много времени. После того как pytorch вошел в linux foundation они будто стали медленнее развиваться. А ещё показали унылые программы сертификации на конференции и тут уже пахнет
Но чтобы не заканчивать на грустном, вот новые классные маленькие фичи:
1. torch.device теперь можно использовать как context manager 🔥
1. В LayerNorm теперь можно выключить bias 🔥
1. functorch.einops.rearrange 🔥🔥🔥
1. Allow non-uniform requires_grad for use_orig_params=True в FSDP (это личная радость, возможно теперь FSDP будет юзабельным)
1. Better function annotations for nn.functional
🔥31👍3
OpenAI Dev Day TL;DR
youtube.com/watch?v=U9mJuUkhUzk
Platform:
1. GPT 4 Turbo
128 Context Length | JSON mode replies | Better function calling | Deterministic mode | Logprobs | Retreival | Image input API | 2-3 times cheaper
1. Text to speech API
1. Whisper V3 (github)
1. Custom Models (invite only?)
1. Help with copyright claims against you
1. Assistants API (url)
Persistent Threads | Retreival | Code Interpreter | File input (incl. PDFs)
ChatGPT:
1. Unified GPT4 model
1. GPTs — basically plugins 2.0 — chatgpt.com/create
1. You can code them via a conversation
1. GPT Store
youtube.com/watch?v=U9mJuUkhUzk
Platform:
1. GPT 4 Turbo
128 Context Length | JSON mode replies | Better function calling | Deterministic mode | Logprobs | Retreival | Image input API | 2-3 times cheaper
1. Text to speech API
1. Whisper V3 (github)
1. Custom Models (invite only?)
1. Help with copyright claims against you
1. Assistants API (url)
Persistent Threads | Retreival | Code Interpreter | File input (incl. PDFs)
ChatGPT:
1. Unified GPT4 model
1. GPTs — basically plugins 2.0 — chatgpt.com/create
1. You can code them via a conversation
1. GPT Store
YouTube
OpenAI DevDay: Opening Keynote
Join us for the opening keynote from OpenAI DevDay — OpenAI’s first developer conference.
We’re gathering developers from around the world for an in-person day of programming to learn about the latest AI advancements and explore what lies ahead.
New models…
We’re gathering developers from around the world for an in-person day of programming to learn about the latest AI advancements and explore what lies ahead.
New models…
👍4
Audio
Решил оценить Text-to-Speech от OpenAI
Это мозговзрывательно хорошо (хотя всё ещё не идеально) и кажется весьма дёшево.
Модель мультиязычная и очень неплохо умеет в смесь языков в одном и том же тексте. Да и работает весьма быстро.
Решил запихать в него один из постов этого канала. Что думаете?
Это мозговзрывательно хорошо (хотя всё ещё не идеально) и кажется весьма дёшево.
Модель мультиязычная и очень неплохо умеет в смесь языков в одном и том же тексте. Да и работает весьма быстро.
Решил запихать в него один из постов этого канала. Что думаете?
🔥57👍12❤3🥰2