Telegram Web
Вот и первые плоды переезда в СФ

За первые три дня уже встретил кучу очень классных людей. Один из них — Артемий @nn_for_science из Стенфорда

У него классный канал который обозревает кучу классных вещей от 3D CV до опыта использования Azure и просто классных историй из жизни и работы в SF Bay Area
Подборка топовых NLP статей от Sasha Runsh
twitter.com/srush_nlp/status/1747673238434365805

После истории с тем насколько "anonymity" period в ACL конференциях вредит NLP-сообществу Sasha Rush, Yejin Choi и ещё несколько рисёчеров основали новую конференцию Conference on Language Modeling (CoLM). Первый call for papers на CoLM уже идёт и дедлайн будет в конце марта. И сегодня Саша написал несколько примеров статей чтобы показать топики которые хотят видеть на CoLM:

1. Alignment — DPO paper
1. Pre-training data — mT5
1. Evals — MT-Bench
1. Societal implications — Disability-Centered Perspectives on LLM
1. Safety, sequrity, misinformaiton — A Universal Attack on LLMs
1. LM Science (scaling laws, interpretability, ...) — Transformer Interpretability Beyond Attention Visualization
1. Compute efficient LMs — MegaBlocks (метод тренировки MoE за Mixtral)
1. Engineering for large LMs — PyTorch FSDP
1. Learning algorithms for LMs — Model Soups
1. Inference algorithms — Diverse Beam Search
1. Cognitive science/neuroscience/legal/... — What language reveals about perception
1. LMs for everyone (low-resource LMs) — Quality at a Glance
1. LLMs as world models — Generative Evidence Retrieval for Fact Verification
1. LMs and embodiment 🤖ProgPrompt
1. LMs and interactions — Plug-and-Play Theory of Mind
1. LMs on diverse applications — Exploring LLMs for Medical QA*

*Заменил статью на другую, тк публиковаться за пейволом неправильно

Подборка очень классная, те статьи из неё которые я читал реально были очень важны для своих областей. Если хотите чтобы я разобрал какую-то из них - пишите в комментарии.
Self-rewarding Language Models
Yuan et al., Meta AI
arxiv.org/abs/2401.10020

Кликбейтная версия заголовка: LLAMA2 обошла GPT4 🔥🔥

Зачем делать отдельную модель реворда если можно обучать реворду вашу языковую модель? Так по-видимому подумали в FAIR и придумали новый метод: Iterative DPO

1. Файнтюните вашу модель на начальном (чат-)датасете
2. Опционально тюните эту модель на данных которые оценивают качество генерации числом от 1 до 5 с помощью chain of thought
3. Используете few-shot prompting чтобы сгенерировать новые промпты
4. Генерируете N ответов на каждый промпт и оцениваете их этой же моделью
5. Goto 1

Интересным получается то что от числа итераций растет не только качество генерации ответов но и и качество оценки ответов.

После трех таких итераций LLAMA2-70B на бенчмарке AlpacaEval обходит ChatGPT3.5, Claude и даже GPT4 (версия 13 июня 2023). конечно верить только одному бенчмарку не стоит, но к сожалению других в статье нет, даже MMLU.

В любом случае очень классный и простой подход, к сожалению подходящий только GPU-богатым, но зато не требующий огромного количества пользовательских данных
Forwarded from Kali Novskaya (Tatiana Shavrina)
🌸Бесплатные курсы по LLM🌸
#nlp #про_nlp

Небольшое обновление поста про бесплатные курсы NLP/LLM, на этот раз добавлю англоязычных материалов. Всё разбила на две группы: посложнее и поприкладнее-попроще.

🌸Для MLE:
Для курсов требуется английский, требуется Python, основы машинного обучения, базовая теория вероятности и статистика, линейная алгебра.

🟣CS224N: Natural Language Processing with Deep Learning
https://web.stanford.edu/class/cs224n/
Крутой стэнфордский курс, идет каждый год с обновлениями. В этом году впервые лекции решили не выкладывать на youtube, хотя остались в публичном доступе все лекции 2023 — их очень советую.

🟣Chris Manning — конспекты
https://web.stanford.edu/class/cs224n/readings/cs224n-self-attention-transformers-2023_draft.pdf
Преподаватель курса выше и один из самых успешных ученых, авторов исследовательских работ без большого компьюта (DPO, Backpack language models), Крис Маннинг все материалы лекций выкладывает в открытый доступ. По датам обновлений видно, что обновленные материалы -- для курса 2024 года, пользуйтесь! https://web.stanford.edu/class/cs224n/readings/

🟣Dan Jurafsky — Speech and Language Processing (3rd ed. draft)
Автор основного за последние 20 лет учебника по NLP, и тоже из Стэнфорда, Дэн Журафски продолжает выкладывать в открытый доступ новые главы учебника, постоянно обновляя старые. Это вообще практически единственная книга, которую можно прочитать целиком и уже иметь ключи к пониманию 80% происходящего в индустрии.
Последнее обновление учебника – 5 января 2024:
https://web.stanford.edu/~jurafsky/slpdraft/

🟣Transformers United
https://web.stanford.edu/class/cs25/prev_years/2023_winter/index.html
Второй по важности курс, чтобы понимать, что происходит — с общей направленностью на NLP, CV и мультимодальные модели.


🌸Курсы попроще
Требуется только английский и Python

🟣HuggingFace NLP Course
https://huggingface.co/learn/nlp-course/
Верхнеуровневый курс прикладной направленности, научит запускать инференс и тюнинг основных моделей, позволит примерно понять, что происходит внутри и какие параметры ставить для каких задач.

🟣Cohere LLM University
https://docs.cohere.com/docs/llmu
Все настроено, конечно, чтобы вас научить работать именно с продуктами Cohere, но сами по себе обзорные материалы неплохие. Из плюсов — есть Discord сообщество курса.

🟣Learn Prompting
https://learnprompting.org/docs/intro
Хороший дополняемый сборник лучших практик по промпт-инжинирингу, построению chain-of-thought, reasoning, построению ансамблей и систем проверки пайплайнов с промптами.
Please open Telegram to view this post
VIEW IN TELEGRAM
Early Weight Averaging meets High Learning Rates for LLM Pre-training
Sanyal et al., [UT Austin]
arxiv.org/abs/2306.03241

Исследования того а что будет если мы просто усредним несколько моделей всегда были слегка безумной, но очень эффективной идеей улучшения качества моделей. В этой статье авторы показывают что это можно делать не только с финальными чекпоинтами, но и во время тренировки.

Авторы предлагают алгоритм LAWA (LAtest Weight Averaging) который выглядит так:
1. В начале тренируемся как обычно, сохраняем чекпоинты модели каждые N~1000 итераций
2. Когда мы достигаем update_step % N == 0, берём последние M~10 чекпоинтов и усредняем их, заменяем веса модели
3. Продолжаем тренироваться

Метод очень похож на EMA, но тут мы выполняем его не только для тестирования модели, но и для тренировки.

Интересные моменты: оптимальный lr для LAWA заметно выше чем оптимальный lr для обычной тренировки, а также LAWA позволяет избежать нестабильностей лосса когда он внезапно взрывается 🔥

В конце хотелось бы ещё сказать про подробности экспериментов. Порог входа в рисёч предтренировки это ~8xA100. Но есть альтернатива: Pythia и LLM360 зарелизили не только финальный чекпоинт, но и чекпоинты каждую 1000 итераций, а также порядок данных. Это означает что вы можете "вклиниться" со своим методом в середину тренировки и проверить как он работает в начале/середине/конце обучения. Это относительно дешево и так и были проведены большинство экспериментов.
Наткнулся на сайт который кажется как толока но для профессионалов в программировании, математике, физике и других дисциплинах. Очень забавная ниша которой кажется не существовало ещё год назад.

Вообще очень интересно докуда это дойдёт через пару лет когда выйдет GPT6. Многие из тех вещей которые мы сейчас делаем каждый день в GPT4 я лично вообще не мог себе представить всего 2 года назад. Что если реально уже скоро будут какие-то нетривиальные результаты LLM в том чтобы автономно заниматься физикой или математикой?

Я хоть серьёзными науками и не занимаюсь (практический DL на науку не тянет), но впервые подумал что и нас можно будет со временем заменить. Надо поставить себе напоминалку сделать ретроспективу этого поста в январе 2026 😅

https://tryoutlier.com
Апдейт того что умеют делать наши роботы в 1X Technologies
Видео: тык
Блог: тык

Полностью автономно, видео не ускорено (1X speed), все действия контролирует нейросетка end2end

И это самое начало. В этом году будет много интересного в робототехнике
Forwarded from AI Для Всех (Artemii)
Вышел официальный курс от OpenAI: как пользоваться ChatGPT

Уникальный курс от OpenAI, раскрывающий все секреты работы с ChatGPT, от регистрации до разработки сложных запросов.

В эпоху цифровых технологий знание того, как эффективно использовать инструменты искусственного интеллекта, становится не просто преимуществом, а необходимостью. OpenAI выпустили курс, который станет вашим надежным помощником в освоении ChatGPT – от создания аккаунта до написания первого запроса.

В курсе вы научитесь:

- Использованию ChatGPT в качестве персонального ассистента: Узнайте, как максимально повысить свою продуктивность, используя ChatGPT для выполнения повседневных задач.

- Разработка запросов и Prompt Engineering: Освоите искусство формулирования запросов, чтобы получать максимально точные и полезные ответы.

- Введение в DALLE-3, GPT 3.5 и GPT 4: Погрузитесь в возможности последних версий GPT и научитесь создавать уникальный контент.

Не упустите возможность усилить свои навыки и расширить границы возможного с помощью последних технологий от OpenAI (а еще получить сертификат).

Смотреть курс
Humanoid Locomotion as Next Token Prediction
arxiv.org/abs/2402.19469

В этом году с гуманоидными роботами будет жара. Авторы предлагают обучать языковую модель на сенсомоторных траекториях с роботов или из YouTube видео людей где траектории получены с помощью обратной кинематики (использовали PHALP)

Обучались на:
1. Траекториях робота который управляется классическим алгоритмом
1. Траекториях из симуляции с RL-policy
1. Человеческих motion-capture
1. YouTube видео с людьми к которым применяли обратную кинематику чтобы получить траекторию

Плюсы подхода к этому через языковое моделирование: можно обучаться на данных у которых отсутствуют некоторые модальности. Например на YouTube видосах у вас нету actions, есть только траектория. Вы просто маскируете эти отсутствующие токены и языковая модель просто делает своё дело.

Модель обученная всего на 27 часах данных может управлять роботом в городе без какого-либо дообучения 🔥

Также показали наметки scaling law, но самая большая моделька (всего 8M параметров lol) уже отходит от scaling law, так что возможно данных надо сильно больше.
openai.com/blog/openai-elon-musk

Почитайте блогпост и прикреплённые к нему имеилы. Кажется это довольно сильный ответ на иск Маска, но посмотрим куда это зайдёт. Из имеилов я немного удивился что уже в 2016 Сацкевер верил в скейлинг
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
McKinzie et al., [Apple]
arxiv.org/abs/2403.09611

Apple взяла себя в руки и последнее время от них прямо пошли хорошие статье. В этой статье представляют семейство мультимодальных языковых моделей MM1

Научная ценность статьи в большом числе абляционных исследованиях. Авторы приходят к следующим выводам:

Для качества моделей более всего важны следующие вещи (от более важных к менее важным):
1. Разрешение изображений
2. Выбор лосса
3. Размер модели
4. Размер данных

Также выясняют что для few-shot лучше всего моделировать image-text interleave (как Flamingo), а для zero-shot лучше всего image-capiton pairs (как CLIP).

При этом архитектура нейросети минимально влияет на качество. Просто кидайте в трансформер которых подходит вам больше всего. Например когда у вас достаточно хорошая модель с достаточно высоким разрешением изображений не важно как именно вы пулите изображения для передачи в LLM: среднее, attention, или convolusion дают примерно один и тот же результат.

Интересно, что тренировка на тексте (без изображений) значительно улучшает few-shot. Кастательно соотношения данных, из того с чем эксперимертировали в статье лучше всего работает соотношение caption:interleaved:text 5:5:1

Код и веса к сожалению не опубликованы 😓
Очень классное интервью с Андреем
https://twitter.com/stephzhan/status/1773027310587056433

Обсудили немного истории OAI и самого Андрея, насколько scale всё важен (всё ещё #1) какие другие вещи важны. Кажется это первое интервью за долгое время от которого я услышал интересные ответы на тему того куда мы двигаемся в ближайший год

Для себя всё больше понимаю насколько работа над инфраструктрой более важна чем над самими моделями/лоссами/прочим обучением и если раньше видел это как 90% инфра 10% модели кажется сейчас кажется что 99.9% инфра 0.1% модели (но обучать модели всё ещё веселее что проблема 😅)
Forwarded from эйай ньюз
Jamba - вроде Mamba, вроде MoE, вроде трансформер, и в то же время ничто из этого

Заявляют, что по бенчам на уровне Mixtral 8x7b, параметров в целом чуть больше (52B vs 46.7B у Mixtral), но активируется чуть меньше (12B vs 12.9B у Mixtral). Говорят что поддерживается контекст вплоть до 256к, но относиться к этому стоит скептически. В целом не заслуживало бы внимания, если бы не архитектура.

А вот архитектурно это ОЧЕНЬ странная модель – мешают сразу три типа слоёв (см. вторую каритнку). В каждом блоке в 8 слоёв 4 MoE, 3 Mamba и 1 классический трансформерный. То есть на бумаге там 16 экспертов, из них активных 2, но тем не менее половина активируемых параметров при работе модели - dense.

Зачем так - сделали - непонятно, но вроде работает. Главное преимущество по сравнению перед Mixtral - поддержка очень длинного контекста - 140к на одной A100, против 64k у Mixtral, причём на длинных контекстах Jamba вплоть до 3 раз быстрее. Главная проблема таких заявлений – непонятно как эта модель ведёт с такими огромными контекстами. Результатов для Needle In a Haystack бенчмарка нет.

В целом ничего не понятно, но очень интересно.😊

Веса
Блогпост

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
У Dwarkesh новый выпуск подкаста с двумя LLM-щиками. Именно из превью этой беседы я вчера узнал про статью о генерализации и интерпретируемости, детали которой расписал в канале.

Один из гостей — нейробиолог, переключившийся в интерпретируемость моделей (и проводящий аналогии с мозгом) и работающий в Anthropic.
Второй — исследователь в DeepMind. Он молодой, работает буквально 2 года в индустрии, но один из создателей трансформера говорил, что без этого парня Gemini могла бы не состояться, и вообще он один из лучших и недооцененных спецов в области.

Должно быть очень интересно, го смотреть: https://www.youtube.com/watch?v=UTuuTTnjxMQ

Затрагивают следующие топики:
— Long contexts
— Intelligence is just associations
— Intelligence explosion & great researchers
— Superposition & secret communication
— Agents & true reasoning
— How Sholto & Trenton got into AI research
— Are feature spaces the wrong way to think about intelligence?
— Will interp actually work on superhuman models
Llama 3
llama.meta.com/llama3/

Немного странный анонс моделей с приговоркой "статья будет чуть позже", meta раньше так не делали, но всё равно модели очень крутые и уже доступны

Детали:
1. 16K GPU 🤯
1. 15T токенов 🤯🤯
1. Веса моделей на 8B и 70B параметров уже доступны 🎉
1. Тренируют модель на 405B параметров (без MoE) 🤯
1. 8K длина контекста

1. Архиткетурно самые большие отличия: Grouped Query Attention и 128K vocab size
1. Для тренировки оценивали scaling laws на разных доменах датасета (и на downstream задачах) после чего из них высчитывали оптимальное взвешивание

Бенчмарки:
1. На MMLU, Llama 3 8B работает на уровне PALM-540B и Chinchilla 70B
1. Там же Llama 70B обходит Claude 3 Sonnet и Mistral Large
Let's Think Dot by Dot: Hidden Computation in Transformer Language Models
arxiv.org/abs/2404.15758

We show that transformers can use meaningless filler tokens (e.g., '......') in place of a chain of thought to solve two hard algorithmic tasks they could not solve when responding without intermediate tokens.
GPT4o
openai.com/index/hello-gpt-4o/

Буква o в GPT4o означает "omnimodel". Новая моделька, аналогично gemini, может принимать на вход текст, аудио, картинки (и видео?) и генерировать эти модальности (текст, аудио, картинки, простенькое 3D)

Например, модель может суммаризировать видео, редактировать изображения, генерировать комиксы итд

Но самое впечатляющее это конечно же аудио. Новый (слегка кринж) очень живой и эмоциональный голос, который можно просить менять стиль, например насколько он звучит драматично или роботично, можно просить петь итд. Очень круто то что модель может обрабатывать и аудио и видео (как бы) одновременно. То есть ChatGPT слушает вас, но может и смотреть на то что вы показывете на камере -- теперь можно скидывать не только фотографию но и включать видео стрим.

Моделька будет основной моделью в ChatGPT, включая и беслпатных юзеров. Из того что я понял разница между платными и беслпатными теперь будет только в лимите запросов в день.

По метрикам, чуть-чуть лучше чем GPT4-turbo. Возможно мы уже подходим к потолку этих бенчмарков и скоро надо будет делать другие.

Очень рекомендую посмотреть видео с новой моделью, картинки не передают то насколько аудио крутое. Например посмотрите вот эти два видоса: тык, тык

Из презентации очень сильное впечатление что OAI окончательно стали продуктовой компанией. И 100% они специально поставили свою презентацию за день до гугловой. Такое ощущение что они поставили перед собой цель -- уничтожить гугл.

В общем очень крутая презентация, посмотрим как другие компании будут использовать новые API
2024/11/19 22:41:17
Back to Top
HTML Embed Code: