Еще подход к оптимизации LLM трейна через копирование слоев с рлем
Раз в несколько итераций трейна спрашивем рльную полиси (маленький MLP) какой слой копирнуть в вышестойщий. В статье этот механизм называется "связыванием", он определяет, когда слои тренируются и копируются. В самом начале тренируется только первый слой. Со временем остальные слои размораживаются через копирование из нижестоящих или тренируются независимо от других (когда полиси сказала, чтобы он был завязан сам на себя). Так понял.
На входе (s) - вектор с размерностью количества слоев в ллмке, где на каждой позиции стоит минимальный индекс "связанного" слоя, с которого веса копируются (когда надо).
Сама полиси тренируется вместе с LLMкой.
reward = -perplexity на батче
Получили:
BERT тратит на 1 эпоху ~ 2 раза меньше времени
GPT2 в пике потребяла ~ 3 раза меньше памяти чем при обычном трейне, но учится чуть дольше
Dynamic Layer Tying for Parameter-Efficient Transformers
https://arxiv.org/abs/2401.12819
Раз в несколько итераций трейна спрашивем рльную полиси (маленький MLP) какой слой копирнуть в вышестойщий. В статье этот механизм называется "связыванием", он определяет, когда слои тренируются и копируются. В самом начале тренируется только первый слой. Со временем остальные слои размораживаются через копирование из нижестоящих или тренируются независимо от других (когда полиси сказала, чтобы он был завязан сам на себя). Так понял.
На входе (s) - вектор с размерностью количества слоев в ллмке, где на каждой позиции стоит минимальный индекс "связанного" слоя, с которого веса копируются (когда надо).
Сама полиси тренируется вместе с LLMкой.
reward = -perplexity на батче
Получили:
BERT тратит на 1 эпоху ~ 2 раза меньше времени
GPT2 в пике потребяла ~ 3 раза меньше памяти чем при обычном трейне, но учится чуть дольше
Dynamic Layer Tying for Parameter-Efficient Transformers
https://arxiv.org/abs/2401.12819
👍5🤔2
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGASCI webinar on data science and mathematics:
👨🔬 Mark Obozov "Применение стандартных методов RL и Alpha-подобных методов к сложным графовым задачам."
⌚️ Четверг, 29 февраля, 19.00 (по Москве)
Add to Google Calendar
Контекст: Коллеги, мы планируем начать активность по применению методов РЛ, МЛ к задачам на стыке теории групп/графов, где много нерешенных проблем над которыми бьются лучшие умы математики типа Терранса Тао. Иллюстрация задачи - оценки "числа Бога" (диаметра) для групп - см. пример гипотез в посте И. Пака и Х.Хельфгота , а , по-простому, - даже для кубиков Рубика задача не решена. В теме есть вопросы от совсем простых до сложных - если у Вас есть желание поучаствовать - отметьтесь в голосовалке тут. Будем рады всем - не важно сколько у вас опыта - часть вопросов простые - доступны всем. Примерный список вопросов-направлений тут (будет обновлен). Cтартовый митинг активности планируем на пятнцу 1 марта - анонс позднее.
А начнем мы с доклада - который даст введение в один из аспектов этой темы - РЛ (реинфорсмент ленинг).
Абстракт: В рамках данной лекции мы разберём как множество стандартных методов RL(Q-learning, SARSA, etc.) так и различные Alpha модели, включая их применения к большому классу задач - от каких-либо "игровых", до достаточно серьёзных биологических проблем. Одним из возможных интересных продолжений этой темы, является применение полученных знаний и идей в рамках "Каггл Соревнования Санта23" и различных задачах теории групп, которые сводятся к графам. Как более приземленный пример применения RL к графам, будут рассмотрены 3 примера:
1) Решению оптимизационной задачи поиска равновесия в двухстадийной модели транспортной сети с помощью RL
2) Поиск кратчайших расстояний с помощью RL
3) Различные игры на графе, раскраски, тоже с помощью RL
О докладчике: Mark Obozov - CTO, Stanford, Berkeley Research, лектор в ШАДе
📹 Videos: Will appear on Youtube channel https://www.youtube.com/c/SciBerloga - subscribe !
Zoom link will be in @sberlogabig just before start.
👨🔬 Mark Obozov "Применение стандартных методов RL и Alpha-подобных методов к сложным графовым задачам."
⌚️ Четверг, 29 февраля, 19.00 (по Москве)
Add to Google Calendar
Контекст: Коллеги, мы планируем начать активность по применению методов РЛ, МЛ к задачам на стыке теории групп/графов, где много нерешенных проблем над которыми бьются лучшие умы математики типа Терранса Тао. Иллюстрация задачи - оценки "числа Бога" (диаметра) для групп - см. пример гипотез в посте И. Пака и Х.Хельфгота , а , по-простому, - даже для кубиков Рубика задача не решена. В теме есть вопросы от совсем простых до сложных - если у Вас есть желание поучаствовать - отметьтесь в голосовалке тут. Будем рады всем - не важно сколько у вас опыта - часть вопросов простые - доступны всем. Примерный список вопросов-направлений тут (будет обновлен). Cтартовый митинг активности планируем на пятнцу 1 марта - анонс позднее.
А начнем мы с доклада - который даст введение в один из аспектов этой темы - РЛ (реинфорсмент ленинг).
Абстракт: В рамках данной лекции мы разберём как множество стандартных методов RL(Q-learning, SARSA, etc.) так и различные Alpha модели, включая их применения к большому классу задач - от каких-либо "игровых", до достаточно серьёзных биологических проблем. Одним из возможных интересных продолжений этой темы, является применение полученных знаний и идей в рамках "Каггл Соревнования Санта23" и различных задачах теории групп, которые сводятся к графам. Как более приземленный пример применения RL к графам, будут рассмотрены 3 примера:
1) Решению оптимизационной задачи поиска равновесия в двухстадийной модели транспортной сети с помощью RL
2) Поиск кратчайших расстояний с помощью RL
3) Различные игры на графе, раскраски, тоже с помощью RL
О докладчике: Mark Obozov - CTO, Stanford, Berkeley Research, лектор в ШАДе
📹 Videos: Will appear on Youtube channel https://www.youtube.com/c/SciBerloga - subscribe !
Zoom link will be in @sberlogabig just before start.
🔥4
Awesome листик по reasoningу хотим? Обновлялся 2 недели назад.
https://github.com/reasoning-survey/Awesome-Reasoning-Foundation-Models
https://github.com/reasoning-survey/Awesome-Reasoning-Foundation-Models
GitHub
GitHub - reasoning-survey/Awesome-Reasoning-Foundation-Models: ✨✨Latest Papers and Benchmarks in Reasoning with Foundation Models
✨✨Latest Papers and Benchmarks in Reasoning with Foundation Models - reasoning-survey/Awesome-Reasoning-Foundation-Models
👍11
ДипМаинды нам объясняют, что если Q/Value функции строить на категориальных распределениях и переходить от регрессии к классификации, то RL зачастую будет учиться лучше.
Stop Regressing: Training Value Functions via Classification for Scalable Deep RL
https://arxiv.org/abs/2403.03950
Stop Regressing: Training Value Functions via Classification for Scalable Deep RL
https://arxiv.org/abs/2403.03950
✍7🔥2
Center for Cognitive Modeling
🎓 — Семинар 18. Mastering Memory Tasks with World Models | Артём Жолус Завтра на семинаре выступит выпускник нашей магистерской программы МТИИ, ныне аспирант университета Монреаля и научный сотрудник лаборатория MILA (основанной Йошуа Бенджио) Артём Жолус…
Вот и на архиве можно почитать
Код уже есть
https://recall2imagine.github.io/
Mastering Memory Tasks with World Models
https://arxiv.org/abs/2403.04253
Код уже есть
https://recall2imagine.github.io/
Mastering Memory Tasks with World Models
https://arxiv.org/abs/2403.04253
recall2imagine.github.io
Recall to Imagine
R2I is a model-based agent with enhanced memory capabilities which shines in challenging memory reinforcement learning tasks.
👍4
Forwarded from black_samorez
У меня есть несколько значительных апдейтов касательно AQLM:
Базовое качество: мы улучшили процедуру глобального файнтюна сетки квантизации, уменьшив зазор качества до FP16 на еще 10-30%. Мы обновили чекпоинты старых моделей и выложили еще несколько новых, включая gemma-2b.
Можно тюнить: мы прикрутили AQLM к PEFT, чтобы можно было тюнить LoRA поверх AQLM. Mixtral так можно тюнить в 15Gb VRAM хоть на колабе! (Colab Demo)
I am speed: мы добавили поддержку компиляции графа вычислений модели, что позволяет эффективно занулить оверхед питона при генерации, ускоряя ее в ~3 раза. (Colab Demo)
Базовое качество: мы улучшили процедуру глобального файнтюна сетки квантизации, уменьшив зазор качества до FP16 на еще 10-30%. Мы обновили чекпоинты старых моделей и выложили еще несколько новых, включая gemma-2b.
Можно тюнить: мы прикрутили AQLM к PEFT, чтобы можно было тюнить LoRA поверх AQLM. Mixtral так можно тюнить в 15Gb VRAM хоть на колабе! (Colab Demo)
I am speed: мы добавили поддержку компиляции графа вычислений модели, что позволяет эффективно занулить оверхед питона при генерации, ускоряя ее в ~3 раза. (Colab Demo)
👍6
Пытаемся выучивать последовательности задач в рле.
Демонстрируют на 2х алгоритах: SAC и PPO, оба они actor-critic Среда - метаворлд, там мы манипулятором нажимаем кнопочки, перекладываем всякое и тд.
Нам надо 2 актора - один для онлайн обучения, второй для офлайна. В конце у нас все дистильнуто в offline actor. Еще нам надо будет 2 реплей буфера D (для текущей задачи, 1м семплов), M (куда будем добавлять немного семплов из D для текущей задачи для тюна при следующих, 10*к семплов, k - сколько задач).
1. Вначале учим текущую задачу как обычно.
2. Потом берем натренированного актора и генерим им реплей буфер D. (state/action)
3. Учим офлайн актора на буферах M + D, дистиллим онлайн актора в офлайна.
4. Добавляем немножко из D в М (10к семплов).
5. Теперь ресетим веса онлайновых actor,critic.
Повторяем для следующих задач.
На первой картинке - Average Success Rate по 8 задачам в последовательности.
На второй хитмапы по 2 задачкам.
Так понял.
Reset & Distill: A Recipe for Overcoming Negative Transfer in Continual Reinforcement Learning https://arxiv.org/abs/2403.05066
Демонстрируют на 2х алгоритах: SAC и PPO, оба они actor-critic Среда - метаворлд, там мы манипулятором нажимаем кнопочки, перекладываем всякое и тд.
Нам надо 2 актора - один для онлайн обучения, второй для офлайна. В конце у нас все дистильнуто в offline actor. Еще нам надо будет 2 реплей буфера D (для текущей задачи, 1м семплов), M (куда будем добавлять немного семплов из D для текущей задачи для тюна при следующих, 10*к семплов, k - сколько задач).
1. Вначале учим текущую задачу как обычно.
2. Потом берем натренированного актора и генерим им реплей буфер D. (state/action)
3. Учим офлайн актора на буферах M + D, дистиллим онлайн актора в офлайна.
4. Добавляем немножко из D в М (10к семплов).
5. Теперь ресетим веса онлайновых actor,critic.
Повторяем для следующих задач.
На первой картинке - Average Success Rate по 8 задачам в последовательности.
На второй хитмапы по 2 задачкам.
Так понял.
Reset & Distill: A Recipe for Overcoming Negative Transfer in Continual Reinforcement Learning https://arxiv.org/abs/2403.05066
👍2🫡2
А DeepMindы нам что-то показывают. Похоже, оно должно уметь играть в игрушки.
Как понял учатся через behavior cloning на том, как люди играют в игры и проходят окружения...
Вроде и не плохо но чот хз. RLя не завезли это минус.
https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/
Как понял учатся через behavior cloning на том, как люди играют в игры и проходят окружения...
Вроде и не плохо но чот хз. RLя не завезли это минус.
https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/
👾3
Ребята собирают MCTS based RL алгоритмы в один тулкит.
Еще собирают списочек со значимыми статьями (тыкнуть Key Papers/Other Papers)
Приятно, что все еще обновляется
https://github.com/opendilab/LightZero
Еще собирают списочек со значимыми статьями (тыкнуть Key Papers/Other Papers)
Приятно, что все еще обновляется
https://github.com/opendilab/LightZero
👍8
Forwarded from Love. Death. Transformers.
Genstruct
Если вы когда то хотели сделать хороший инструкт сет вы упираетесь в одну простую проблему - нормальные датасеты лежат обычно в формате Plain Text:
И сунуть его as is в инструктивную модель нельзя - вытащить роли и прочее - не получиться. В FLAN like корпусах вытаскивали даты, имена и локации с помощью простых эвристик и на этом получалось довольно успешно учить модели.
Чуваки из Nous пошли дальше и сказали следущее: давайте у нас LLM будет переписывать существующие тексты в инструктивный формат, тем самым мы получаем очень качественную grounded синту, которую можно подсовывать в претрен!
model
paper
Если вы когда то хотели сделать хороший инструкт сет вы упираетесь в одну простую проблему - нормальные датасеты лежат обычно в формате Plain Text:
Andrej Karpathy (born 23 October 1986[2]) is a Slovak-Canadian computer scientist who served as the director of artificial intelligence and Autopilot Vision at Tesla. He co-founded and formerly worked at OpenAI,[3][4][5] where he specialized in deep learning and computer vision.[6][7][1][8]
Education and early life
Karpathy was born in Bratislava, Czechoslovakia (now Slovakia)[9][10][11][12] and moved with his family to Toronto when he was 15.[13] He completed his Computer Science and Physics bachelor's degrees at University of Toronto in 2009[14] and his master's degree at University of British Columbia in 2011,[14] where he worked on physically-simulated figures (for example, a simulated runner or a simulated person in a crowd).
Karpathy received a PhD from Stanford University in 2016 under the supervision of Fei-Fei Li, focusing on the intersection of natural language processing and computer vision, and deep learning models suited for this task.[15][16]
И сунуть его as is в инструктивную модель нельзя - вытащить роли и прочее - не получиться. В FLAN like корпусах вытаскивали даты, имена и локации с помощью простых эвристик и на этом получалось довольно успешно учить модели.
Чуваки из Nous пошли дальше и сказали следущее: давайте у нас LLM будет переписывать существующие тексты в инструктивный формат, тем самым мы получаем очень качественную grounded синту, которую можно подсовывать в претрен!
model
paper
🔥10👍3
This media is not supported in your browser
VIEW IN TELEGRAM
X нам выдают Grok-1 на 314B.
Кто тестить будет?
(сервак для инференса в сделку не входит)
https://github.com/xai-org/grok
Кто тестить будет?
(сервак для инференса в сделку не входит)
https://github.com/xai-org/grok
😁11
Там уже тредик о работе у Илона Маска организовали
Ваш шанс, ребята!
https://github.com/xai-org/grok/issues/10
Upd: Closed. Надеюсь, кого-нибудь из треда позовут на собеседование...
Ваш шанс, ребята!
https://github.com/xai-org/grok/issues/10
Upd: Closed. Надеюсь, кого-нибудь из треда позовут на собеседование...
😁19
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGASCI вебинар/обсуждение :
👨🔬 Богдан Булатов, Ульяна Князюк, Михаил Ураков "Применение Q-learning и SARSA к задаче короткого пути на графах. Разбор ноутбуков"
⌚️ Вторник, 19 Марта, 19.00 по Москве
Add to Google Calendar
Вводное обсуждение по методам RL (reinforcement learning) - Q-learning and SARSA. С разборов ноутбуков, которые применяют эти методы к задаче поиска короткого пути на графах. Нам желательно освоить детально эти простые методы, чтобы эффективней двигаться дальше. Желательно понять насколько эти методы плохо/хорошо масштабируются на большие графы, и как эффективность методов зависит от самой структуры графов (графы попроще - типа решеток, графы посложнее - скажем граф состояний кубика Рубика, или любой случайной группы). Дальнейший шаг - как улучшить методы, чтобы было возможно решать задачу короткого пути на огромных графов - большие кубики и подобные группы.
Ноутбуки:
Богдан , Ульяна , Михаил
(Апвоуты - приветствуются ! )
Исходный ноутбук: https://www.kaggle.com/code/prabhakarkalaiselvan/shortest-path-in-undirected-graph-using-rl-methods
В ноутбуке Богдана:
"+ реализовал метод Cross Entropy
+ изменил методику назначения reward. Автор оригинального поста присуждает 0 всем возможным граням. Мне кажется, что лучше присуждать -1. Так траектории с более коротким маршрутом получат больше итоговой награды, чем более длинные траектории (штрафуем за лишние шаги). Это может сыграть роль на более сложных примерах, а так же поможет сравнивать работу различных алгоритмов
"
Zoom link: @sberlogabig at start.
Videos: https://www.youtube.com/c/SciBerloga - subscribe !
—————————-
Мы организуем активность по изучению методов ML/RL и применению их к математическим задачам теории групп/графов, если Вам интересно присоединиться - отметьтесь в голосовалке : https://www.tgoop.com/sberlogasci/7794 . Более подробная инфа тут: https://www.tgoop.com/sberlogabig/374.
👨🔬 Богдан Булатов, Ульяна Князюк, Михаил Ураков "Применение Q-learning и SARSA к задаче короткого пути на графах. Разбор ноутбуков"
⌚️ Вторник, 19 Марта, 19.00 по Москве
Add to Google Calendar
Вводное обсуждение по методам RL (reinforcement learning) - Q-learning and SARSA. С разборов ноутбуков, которые применяют эти методы к задаче поиска короткого пути на графах. Нам желательно освоить детально эти простые методы, чтобы эффективней двигаться дальше. Желательно понять насколько эти методы плохо/хорошо масштабируются на большие графы, и как эффективность методов зависит от самой структуры графов (графы попроще - типа решеток, графы посложнее - скажем граф состояний кубика Рубика, или любой случайной группы). Дальнейший шаг - как улучшить методы, чтобы было возможно решать задачу короткого пути на огромных графов - большие кубики и подобные группы.
Ноутбуки:
Богдан , Ульяна , Михаил
(Апвоуты - приветствуются ! )
Исходный ноутбук: https://www.kaggle.com/code/prabhakarkalaiselvan/shortest-path-in-undirected-graph-using-rl-methods
В ноутбуке Богдана:
"+ реализовал метод Cross Entropy
+ изменил методику назначения reward. Автор оригинального поста присуждает 0 всем возможным граням. Мне кажется, что лучше присуждать -1. Так траектории с более коротким маршрутом получат больше итоговой награды, чем более длинные траектории (штрафуем за лишние шаги). Это может сыграть роль на более сложных примерах, а так же поможет сравнивать работу различных алгоритмов
"
Zoom link: @sberlogabig at start.
Videos: https://www.youtube.com/c/SciBerloga - subscribe !
—————————-
Мы организуем активность по изучению методов ML/RL и применению их к математическим задачам теории групп/графов, если Вам интересно присоединиться - отметьтесь в голосовалке : https://www.tgoop.com/sberlogasci/7794 . Более подробная инфа тут: https://www.tgoop.com/sberlogabig/374.
🔥6👍4
Forwarded from Сиолошная
https://www.youtube.com/watch?v=jvqFAi7vkBc
Блин я только хотел спать идти. Ожидаю 2 часа дичайшего кайфа.
Как раз хватит, чтобы протянуть до выставки NVIDIA GTC 2024 (через 4.5 часа).
Блин я только хотел спать идти. Ожидаю 2 часа дичайшего кайфа.
Как раз хватит, чтобы протянуть до выставки NVIDIA GTC 2024 (через 4.5 часа).
YouTube
Sam Altman: OpenAI, GPT-5, Sora, Board Saga, Elon Musk, Ilya, Power & AGI | Lex Fridman Podcast #419
Sam Altman is the CEO of OpenAI, the company behind GPT-4, ChatGPT, Sora, and many other state-of-the-art AI technologies. Please support this podcast by checking out our sponsors:
- Cloaked: https://cloaked.com/lex and use code LexPod to get 25% off
- Shopify:…
- Cloaked: https://cloaked.com/lex and use code LexPod to get 25% off
- Shopify:…
Если кто хочет узнать что там с делами у OpenAI 🔼
Please open Telegram to view this post
VIEW IN TELEGRAM