Telegram Web
Еще подход к оптимизации LLM трейна через копирование слоев с рлем

Раз в несколько итераций трейна спрашивем рльную полиси (маленький MLP) какой слой копирнуть в вышестойщий. В статье этот механизм называется "связыванием", он определяет, когда слои тренируются и копируются. В самом начале тренируется только первый слой. Со временем остальные слои размораживаются через копирование из нижестоящих или тренируются независимо от других (когда полиси сказала, чтобы он был завязан сам на себя). Так понял.

На входе (s) - вектор с размерностью количества слоев в ллмке, где на каждой позиции стоит минимальный индекс "связанного" слоя, с которого веса копируются (когда надо).
Сама полиси тренируется вместе с LLMкой.

reward = -perplexity на батче

Получили:
BERT тратит на 1 эпоху ~ 2 раза меньше времени
GPT2 в пике потребяла ~ 3 раза меньше памяти чем при обычном трейне, но учится чуть дольше

Dynamic Layer Tying for Parameter-Efficient Transformers
https://arxiv.org/abs/2401.12819
👍5🤔2
🚀 @SBERLOGASCI webinar on data science and mathematics:
👨‍🔬 Mark Obozov "Применение стандартных методов RL и Alpha-подобных методов к сложным графовым задачам."
⌚️ Четверг, 29 февраля, 19.00 (по Москве)

Add to Google Calendar

Контекст: Коллеги, мы планируем начать активность по применению методов РЛ, МЛ к задачам на стыке теории групп/графов, где много нерешенных проблем над которыми бьются лучшие умы математики типа Терранса Тао. Иллюстрация задачи - оценки "числа Бога" (диаметра) для групп - см. пример гипотез в посте И. Пака и Х.Хельфгота , а , по-простому, - даже для кубиков Рубика задача не решена. В теме есть вопросы от совсем простых до сложных - если у Вас есть желание поучаствовать - отметьтесь в голосовалке тут. Будем рады всем - не важно сколько у вас опыта - часть вопросов простые - доступны всем. Примерный список вопросов-направлений тут (будет обновлен). Cтартовый митинг активности планируем на пятнцу 1 марта - анонс позднее.

А начнем мы с доклада - который даст введение в один из аспектов этой темы - РЛ (реинфорсмент ленинг).

Абстракт: В рамках данной лекции мы разберём как множество стандартных методов RL(Q-learning, SARSA, etc.) так и различные Alpha модели, включая их применения к большому классу задач - от каких-либо "игровых", до достаточно серьёзных биологических проблем. Одним из возможных интересных продолжений этой темы, является применение полученных знаний и идей в рамках "Каггл Соревнования Санта23" и различных задачах теории групп, которые сводятся к графам. Как более приземленный пример применения RL к графам, будут рассмотрены 3 примера:

1) Решению оптимизационной задачи поиска равновесия в двухстадийной модели транспортной сети с помощью RL

2) Поиск кратчайших расстояний с помощью RL

3) Различные игры на графе, раскраски, тоже с помощью RL

О докладчике: Mark Obozov - CTO, Stanford, Berkeley Research, лектор в ШАДе

📹 Videos: Will appear on Youtube channel https://www.youtube.com/c/SciBerloga - subscribe !

Zoom link will be in @sberlogabig just before start.
🔥4
ДипМаинды нам объясняют, что если Q/Value функции строить на категориальных распределениях и переходить от регрессии к классификации, то RL зачастую будет учиться лучше.

Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

https://arxiv.org/abs/2403.03950
7🔥2
Forwarded from black_samorez
У меня есть несколько значительных апдейтов касательно AQLM:

Базовое качество: мы улучшили процедуру глобального файнтюна сетки квантизации, уменьшив зазор качества до FP16 на еще 10-30%. Мы обновили чекпоинты старых моделей и выложили еще несколько новых, включая gemma-2b.

Можно тюнить: мы прикрутили AQLM к PEFT, чтобы можно было тюнить LoRA поверх AQLM. Mixtral так можно тюнить в 15Gb VRAM хоть на колабе! (Colab Demo)

I am speed: мы добавили поддержку компиляции графа вычислений модели, что позволяет эффективно занулить оверхед питона при генерации, ускоряя ее в ~3 раза. (Colab Demo)
👍6
Пытаемся выучивать последовательности задач в рле.

Демонстрируют на 2х алгоритах: SAC и PPO, оба они actor-critic Среда - метаворлд, там мы манипулятором нажимаем кнопочки, перекладываем всякое и тд.
Нам надо 2 актора - один для онлайн обучения, второй для офлайна. В конце у нас все дистильнуто в offline actor. Еще нам надо будет 2 реплей буфера D (для текущей задачи, 1м семплов), M (куда будем добавлять немного семплов из D для текущей задачи для тюна при следующих, 10*к семплов, k - сколько задач).
1. Вначале учим текущую задачу как обычно.
2. Потом берем натренированного актора и генерим им реплей буфер D. (state/action)
3. Учим офлайн актора на буферах M + D, дистиллим онлайн актора в офлайна.
4. Добавляем немножко из D в М (10к семплов).
5. Теперь ресетим веса онлайновых actor,critic.
Повторяем для следующих задач.

На первой картинке - Average Success Rate по 8 задачам в последовательности.
На второй хитмапы по 2 задачкам.
Так понял.

Reset & Distill: A Recipe for Overcoming Negative Transfer in Continual Reinforcement Learning https://arxiv.org/abs/2403.05066
👍2🫡2
А DeepMindы нам что-то показывают. Похоже, оно должно уметь играть в игрушки.

Как понял учатся через behavior cloning на том, как люди играют в игры и проходят окружения...

Вроде и не плохо но чот хз. RLя не завезли это минус.

https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/
👾3
Ребята собирают MCTS based RL алгоритмы в один тулкит.
Еще собирают списочек со значимыми статьями (тыкнуть Key Papers/Other Papers)
Приятно, что все еще обновляется

https://github.com/opendilab/LightZero
👍8
Genstruct

Если вы когда то хотели сделать хороший инструкт сет вы упираетесь в одну простую проблему - нормальные датасеты лежат обычно в формате Plain Text:
Andrej Karpathy (born 23 October 1986[2]) is a Slovak-Canadian computer scientist who served as the director of artificial intelligence and Autopilot Vision at Tesla. He co-founded and formerly worked at OpenAI,[3][4][5] where he specialized in deep learning and computer vision.[6][7][1][8]

Education and early life
Karpathy was born in Bratislava, Czechoslovakia (now Slovakia)[9][10][11][12] and moved with his family to Toronto when he was 15.[13] He completed his Computer Science and Physics bachelor's degrees at University of Toronto in 2009[14] and his master's degree at University of British Columbia in 2011,[14] where he worked on physically-simulated figures (for example, a simulated runner or a simulated person in a crowd).

Karpathy received a PhD from Stanford University in 2016 under the supervision of Fei-Fei Li, focusing on the intersection of natural language processing and computer vision, and deep learning models suited for this task.[15][16]

И сунуть его as is в инструктивную модель нельзя - вытащить роли и прочее - не получиться. В FLAN like корпусах вытаскивали даты, имена и локации с помощью простых эвристик и на этом получалось довольно успешно учить модели.

Чуваки из Nous пошли дальше и сказали следущее: давайте у нас LLM будет переписывать существующие тексты в инструктивный формат, тем самым мы получаем очень качественную grounded синту, которую можно подсовывать в претрен!

model
paper
🔥10👍3
This media is not supported in your browser
VIEW IN TELEGRAM
X нам выдают Grok-1 на 314B.

Кто тестить будет?
(сервак для инференса в сделку не входит)

https://github.com/xai-org/grok
😁11
Там уже тредик о работе у Илона Маска организовали
Ваш шанс, ребята!

https://github.com/xai-org/grok/issues/10

Upd: Closed. Надеюсь, кого-нибудь из треда позовут на собеседование...
😁19
🚀 @SBERLOGASCI вебинар/обсуждение :
👨‍🔬 Богдан Булатов, Ульяна Князюк, Михаил Ураков "Применение Q-learning и SARSA к задаче короткого пути на графах. Разбор ноутбуков"
⌚️ Вторник, 19 Марта, 19.00 по Москве

Add to Google Calendar

Вводное обсуждение по методам RL (reinforcement learning) - Q-learning and SARSA. С разборов ноутбуков, которые применяют эти методы к задаче поиска короткого пути на графах. Нам желательно освоить детально эти простые методы, чтобы эффективней двигаться дальше. Желательно понять насколько эти методы плохо/хорошо масштабируются на большие графы, и как эффективность методов зависит от самой структуры графов (графы попроще - типа решеток, графы посложнее - скажем граф состояний кубика Рубика, или любой случайной группы). Дальнейший шаг - как улучшить методы, чтобы было возможно решать задачу короткого пути на огромных графов - большие кубики и подобные группы.

Ноутбуки:
Богдан , Ульяна , Михаил
(Апвоуты - приветствуются ! )

Исходный ноутбук: https://www.kaggle.com/code/prabhakarkalaiselvan/shortest-path-in-undirected-graph-using-rl-methods

В ноутбуке Богдана:
"+ реализовал метод Cross Entropy
+ изменил методику назначения reward. Автор оригинального поста присуждает 0 всем возможным граням. Мне кажется, что лучше присуждать -1. Так траектории с более коротким маршрутом получат больше итоговой награды, чем более длинные траектории (штрафуем за лишние шаги). Это может сыграть роль на более сложных примерах, а так же поможет сравнивать работу различных алгоритмов
"

Zoom link: @sberlogabig at start.
Videos: https://www.youtube.com/c/SciBerloga - subscribe !

—————————-

Мы организуем активность по изучению методов ML/RL и применению их к математическим задачам теории групп/графов, если Вам интересно присоединиться - отметьтесь в голосовалке : https://www.tgoop.com/sberlogasci/7794 . Более подробная инфа тут: https://www.tgoop.com/sberlogabig/374.
🔥6👍4
Если кто хочет узнать что там с делами у OpenAI 🔼
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/07/13 11:33:53
Back to Top
HTML Embed Code: