Агенты ИИ | AGI_and_RL 717

Агенты ИИ | AGI_and_RL

Еще подход к оптимизации LLM трейна через копирование слоев с рлем

Раз в несколько итераций трейна спрашивем рльную полиси (маленький MLP) какой слой копирнуть в вышестойщий. В статье этот механизм называется "связыванием", он определяет, когда слои тренируются и копируются. В самом начале тренируется только первый слой. Со временем остальные слои размораживаются через копирование из нижестоящих или тренируются независимо от других (когда полиси сказала, чтобы он был завязан сам на себя). Так понял.

На входе (s) - вектор с размерностью количества слоев в ллмке, где на каждой позиции стоит минимальный индекс "связанного" слоя, с которого веса копируются (когда надо).
Сама полиси тренируется вместе с LLMкой.

reward = -perplexity на батче

Получили:
BERT тратит на 1 эпоху ~ 2 раза меньше времени
GPT2 в пике потребяла ~ 3 раза меньше памяти чем при обычном трейне, но учится чуть дольше

Dynamic Layer Tying for Parameter-Efficient Transformers
https://arxiv.org/abs/2401.12819

👍5🤔2

7.27K views18:47

Агенты ИИ | AGI_and_RL

Forwarded from (sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGASCI webinar on data science and mathematics:
👨‍🔬 Mark Obozov "Применение стандартных методов RL и Alpha-подобных методов к сложным графовым задачам."
⌚️ Четверг, 29 февраля, 19.00 (по Москве)

Add to Google Calendar

Контекст: Коллеги, мы планируем начать активность по применению методов РЛ, МЛ к задачам на стыке теории групп/графов, где много нерешенных проблем над которыми бьются лучшие умы математики типа Терранса Тао. Иллюстрация задачи - оценки "числа Бога" (диаметра) для групп - см. пример гипотез в посте И. Пака и Х.Хельфгота , а , по-простому, - даже для кубиков Рубика задача не решена. В теме есть вопросы от совсем простых до сложных - если у Вас есть желание поучаствовать - отметьтесь в голосовалке тут. Будем рады всем - не важно сколько у вас опыта - часть вопросов простые - доступны всем. Примерный список вопросов-направлений тут (будет обновлен). Cтартовый митинг активности планируем на пятнцу 1 марта - анонс позднее.

А начнем мы с доклада - который даст введение в один из аспектов этой темы - РЛ (реинфорсмент ленинг).

Абстракт: В рамках данной лекции мы разберём как множество стандартных методов RL(Q-learning, SARSA, etc.) так и различные Alpha модели, включая их применения к большому классу задач - от каких-либо "игровых", до достаточно серьёзных биологических проблем. Одним из возможных интересных продолжений этой темы, является применение полученных знаний и идей в рамках "Каггл Соревнования Санта23" и различных задачах теории групп, которые сводятся к графам. Как более приземленный пример применения RL к графам, будут рассмотрены 3 примера:

1) Решению оптимизационной задачи поиска равновесия в двухстадийной модели транспортной сети с помощью RL

2) Поиск кратчайших расстояний с помощью RL

3) Различные игры на графе, раскраски, тоже с помощью RL

О докладчике: Mark Obozov - CTO, Stanford, Berkeley Research, лектор в ШАДе

📹 Videos: Will appear on Youtube channel https://www.youtube.com/c/SciBerloga - subscribe !

Zoom link will be in @sberlogabig just before start.

🔥4

1.24K views19:47

Агенты ИИ | AGI_and_RL

Awesome листик по reasoningу хотим? Обновлялся 2 недели назад.

https://github.com/reasoning-survey/Awesome-Reasoning-Foundation-Models

GitHub

GitHub - reasoning-survey/Awesome-Reasoning-Foundation-Models: ✨✨Latest Papers and Benchmarks in Reasoning with Foundation Models

✨✨Latest Papers and Benchmarks in Reasoning with Foundation Models - reasoning-survey/Awesome-Reasoning-Foundation-Models

👍11

1.49K views07:28

Агенты ИИ | AGI_and_RL

ДипМаинды нам объясняют, что если Q/Value функции строить на категориальных распределениях и переходить от регрессии к классификации, то RL зачастую будет учиться лучше.

Stop Regressing: Training Value Functions via Classification for Scalable Deep RL
https://arxiv.org/abs/2403.03950

✍7🔥2

1.67K views08:56

Агенты ИИ | AGI_and_RL

Center for Cognitive Modeling

🎓 — Семинар 18. Mastering Memory Tasks with World Models | Артём Жолус Завтра на семинаре выступит выпускник нашей магистерской программы МТИИ, ныне аспирант университета Монреаля и научный сотрудник лаборатория MILA (основанной Йошуа Бенджио) Артём Жолус…

Вот и на архиве можно почитать
Код уже есть

https://recall2imagine.github.io/

Mastering Memory Tasks with World Models
https://arxiv.org/abs/2403.04253

recall2imagine.github.io

Recall to Imagine

R2I is a model-based agent with enhanced memory capabilities which shines in challenging memory reinforcement learning tasks.

👍4

1.21K viewsedited 13:14

Агенты ИИ | AGI_and_RL

Forwarded from black_samorez

У меня есть несколько значительных апдейтов касательно AQLM:

Базовое качество: мы улучшили процедуру глобального файнтюна сетки квантизации, уменьшив зазор качества до FP16 на еще 10-30%. Мы обновили чекпоинты старых моделей и выложили еще несколько новых, включая gemma-2b.

Можно тюнить: мы прикрутили AQLM к PEFT, чтобы можно было тюнить LoRA поверх AQLM. Mixtral так можно тюнить в 15Gb VRAM хоть на колабе! (Colab Demo)

I am speed: мы добавили поддержку компиляции графа вычислений модели, что позволяет эффективно занулить оверхед питона при генерации, ускоряя ее в ~3 раза. (Colab Demo)

👍6

986 views14:38

Агенты ИИ | AGI_and_RL

Пытаемся выучивать последовательности задач в рле.

Демонстрируют на 2х алгоритах: SAC и PPO, оба они actor-critic Среда - метаворлд, там мы манипулятором нажимаем кнопочки, перекладываем всякое и тд.
Нам надо 2 актора - один для онлайн обучения, второй для офлайна. В конце у нас все дистильнуто в offline actor. Еще нам надо будет 2 реплей буфера D (для текущей задачи, 1м семплов), M (куда будем добавлять немного семплов из D для текущей задачи для тюна при следующих, 10*к семплов, k - сколько задач).
1. Вначале учим текущую задачу как обычно.
2. Потом берем натренированного актора и генерим им реплей буфер D. (state/action)
3. Учим офлайн актора на буферах M + D, дистиллим онлайн актора в офлайна.
4. Добавляем немножко из D в М (10к семплов).
5. Теперь ресетим веса онлайновых actor,critic.
Повторяем для следующих задач.

На первой картинке - Average Success Rate по 8 задачам в последовательности.
На второй хитмапы по 2 задачкам.
Так понял.

Reset & Distill: A Recipe for Overcoming Negative Transfer in Continual Reinforcement Learning https://arxiv.org/abs/2403.05066

👍2🫡2

1.17K views12:28

Агенты ИИ | AGI_and_RL

А DeepMindы нам что-то показывают. Похоже, оно должно уметь играть в игрушки.

Как понял учатся через behavior cloning на том, как люди играют в игры и проходят окружения...

Вроде и не плохо но чот хз. RLя не завезли это минус.

https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/

👾3

2.99K viewsedited 15:04

Агенты ИИ | AGI_and_RL

Ребята собирают MCTS based RL алгоритмы в один тулкит.
Еще собирают списочек со значимыми статьями (тыкнуть Key Papers/Other Papers)
Приятно, что все еще обновляется

https://github.com/opendilab/LightZero

👍8

933 viewsedited 10:32

Агенты ИИ | AGI_and_RL

Forwarded from Love. Death. Transformers.

Genstruct

Если вы когда то хотели сделать хороший инструкт сет вы упираетесь в одну простую проблему - нормальные датасеты лежат обычно в формате Plain Text:

Andrej Karpathy (born 23 October 1986[2]) is a Slovak-Canadian computer scientist who served as the director of artificial intelligence and Autopilot Vision at Tesla. He co-founded and formerly worked at OpenAI,[3][4][5] where he specialized in deep learning and computer vision.[6][7][1][8]

Education and early life
Karpathy was born in Bratislava, Czechoslovakia (now Slovakia)[9][10][11][12] and moved with his family to Toronto when he was 15.[13] He completed his Computer Science and Physics bachelor's degrees at University of Toronto in 2009[14] and his master's degree at University of British Columbia in 2011,[14] where he worked on physically-simulated figures (for example, a simulated runner or a simulated person in a crowd).

Karpathy received a PhD from Stanford University in 2016 under the supervision of Fei-Fei Li, focusing on the intersection of natural language processing and computer vision, and deep learning models suited for this task.[15][16]

И сунуть его as is в инструктивную модель нельзя - вытащить роли и прочее - не получиться. В FLAN like корпусах вытаскивали даты, имена и локации с помощью простых эвристик и на этом получалось довольно успешно учить модели.

Чуваки из Nous пошли дальше и сказали следущее: давайте у нас LLM будет переписывать существующие тексты в инструктивный формат, тем самым мы получаем очень качественную grounded синту, которую можно подсовывать в претрен!

model
paper

🔥10👍3

682 views11:02

Агенты ИИ | AGI_and_RL

This media is not supported in your browser

VIEW IN TELEGRAM

X нам выдают Grok-1 на 314B.

Кто тестить будет?
(сервак для инференса в сделку не входит)

https://github.com/xai-org/grok

😁11

918 viewsedited 20:08

Агенты ИИ | AGI_and_RL

Там уже тредик о работе у Илона Маска организовали
Ваш шанс, ребята!

https://github.com/xai-org/grok/issues/10

Upd: Closed. Надеюсь, кого-нибудь из треда позовут на собеседование...

😁19

869 viewsedited 20:23

Агенты ИИ | AGI_and_RL

Forwarded from (sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGASCI вебинар/обсуждение :
👨‍🔬 Богдан Булатов, Ульяна Князюк, Михаил Ураков "Применение Q-learning и SARSA к задаче короткого пути на графах. Разбор ноутбуков"
⌚️ Вторник, 19 Марта, 19.00 по Москве

Add to Google Calendar

Вводное обсуждение по методам RL (reinforcement learning) - Q-learning and SARSA. С разборов ноутбуков, которые применяют эти методы к задаче поиска короткого пути на графах. Нам желательно освоить детально эти простые методы, чтобы эффективней двигаться дальше. Желательно понять насколько эти методы плохо/хорошо масштабируются на большие графы, и как эффективность методов зависит от самой структуры графов (графы попроще - типа решеток, графы посложнее - скажем граф состояний кубика Рубика, или любой случайной группы). Дальнейший шаг - как улучшить методы, чтобы было возможно решать задачу короткого пути на огромных графов - большие кубики и подобные группы.

Ноутбуки:
Богдан , Ульяна , Михаил
(Апвоуты - приветствуются ! )

Исходный ноутбук: https://www.kaggle.com/code/prabhakarkalaiselvan/shortest-path-in-undirected-graph-using-rl-methods

В ноутбуке Богдана:
"+ реализовал метод Cross Entropy
+ изменил методику назначения reward. Автор оригинального поста присуждает 0 всем возможным граням. Мне кажется, что лучше присуждать -1. Так траектории с более коротким маршрутом получат больше итоговой награды, чем более длинные траектории (штрафуем за лишние шаги). Это может сыграть роль на более сложных примерах, а так же поможет сравнивать работу различных алгоритмов
"

Zoom link: @sberlogabig at start.
Videos: https://www.youtube.com/c/SciBerloga - subscribe !

—————————-

Мы организуем активность по изучению методов ML/RL и применению их к математическим задачам теории групп/графов, если Вам интересно присоединиться - отметьтесь в голосовалке : https://www.tgoop.com/sberlogasci/7794 . Более подробная инфа тут: https://www.tgoop.com/sberlogabig/374.

🔥6👍4

772 views12:44

Агенты ИИ | AGI_and_RL

Forwarded from Сиолошная

https://www.youtube.com/watch?v=jvqFAi7vkBc

Блин я только хотел спать идти. Ожидаю 2 часа дичайшего кайфа.

Как раз хватит, чтобы протянуть до выставки NVIDIA GTC 2024 (через 4.5 часа).

YouTube

Sam Altman: OpenAI, GPT-5, Sora, Board Saga, Elon Musk, Ilya, Power & AGI | Lex Fridman Podcast #419

Sam Altman is the CEO of OpenAI, the company behind GPT-4, ChatGPT, Sora, and many other state-of-the-art AI technologies. Please support this podcast by checking out our sponsors:
- Cloaked: https://cloaked.com/lex and use code LexPod to get 25% off
- Shopify:…

703 views15:40

Агенты ИИ | AGI_and_RL

Если кто хочет узнать что там с делами у OpenAI 🔼

Please open Telegram to view this post

VIEW IN TELEGRAM

843 views15:41

2025/07/13 11:33:53
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>