This media is not supported in your browser
VIEW IN TELEGRAM
Прямо сейчас происходит хайп MCTS (теперь с ллмами)
В RLе у нас MCTS используется в куче *Zero алгоритмов и там он на некоторых играх показывает оверхуман (EfficientZero насколько я понимаю самый работоспособный и быстрее всех учится из зерошек), ну надо и к ллмам его тогда добавить. Они итак "умные", мб это их еще забустит. Ну вроде да.
И вот код к статье где цель делать LLMы (агентов) с MCTS
Tree Search for Language Model Agents
https://jykoh.com/search-agents
https://github.com/kohjingyu/search-agents
Вроде должно работать с ГПТшками и ллама3 (с инференсом на vllm) но я сам не проверял
В RLе у нас MCTS используется в куче *Zero алгоритмов и там он на некоторых играх показывает оверхуман (EfficientZero насколько я понимаю самый работоспособный и быстрее всех учится из зерошек), ну надо и к ллмам его тогда добавить. Они итак "умные", мб это их еще забустит. Ну вроде да.
И вот код к статье где цель делать LLMы (агентов) с MCTS
Tree Search for Language Model Agents
https://jykoh.com/search-agents
https://github.com/kohjingyu/search-agents
Вроде должно работать с ГПТшками и ллама3 (с инференсом на vllm) но я сам не проверял
🤯4👍3🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Еще интересный подход по созданию агентов (на базе Vision language модели) с RLем которые могут пользоваться Android телефоном через GUI
Вначале трейнят offline RL на данных, потом offline-to-online где агент уже сам доучивается в среде. Создали распараллеленный симулятор который одновременно может запускать 64 эмулятора андроида.
Тестировались на датасете Android-in-the-Wild (AitW). VLMка на 1.3B параметров.
* success rate подняли до 67.2%
у другого RL агента который учился через Behavior cloning был - 57.8%
GPT-4V - 8.3%
Gemini 1.5 Pro - 17.7%
17B CogAgent - 38.5%
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning
https://arxiv.org/abs/2406.11896
https://digirl-agent.github.io/
https://github.com/DigiRL-agent/digirl
Вначале трейнят offline RL на данных, потом offline-to-online где агент уже сам доучивается в среде. Создали распараллеленный симулятор который одновременно может запускать 64 эмулятора андроида.
Тестировались на датасете Android-in-the-Wild (AitW). VLMка на 1.3B параметров.
* success rate подняли до 67.2%
у другого RL агента который учился через Behavior cloning был - 57.8%
GPT-4V - 8.3%
Gemini 1.5 Pro - 17.7%
17B CogAgent - 38.5%
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning
https://arxiv.org/abs/2406.11896
https://digirl-agent.github.io/
https://github.com/DigiRL-agent/digirl
🔥7👍2
Вспоминаем что Андрей Карпати делает llm.c
https://github.com/karpathy/llm.c
Там он с 0 gptшки реализует на питоне, на плюсах и на CUDA (который я кстати рекомендую всем изучать, кто интересуется большими моделями да и вообще уметь видяшки прогать это важный навык для млинженера)
Вот один из пользователей сделал свой форк в котором подкрутил параметры, добавил сам чего-то и смог ускорить трейн nanoGPT на 124M что ему теперь достаточно 5B токенов чтобы достичь лосса который у llm.c трейнера достигается на 10B. (на питоне с торчем)
https://github.com/KellerJordan/modded-nanogpt
Я вообще к тому, что лучший способ изучать что-либо - это самому заняться реализацией и улучшением. Так что форкайте llm.c, делайте гптшки и треньте сами!
Ну и видосики можно смотреть по теме, где Андрей сам имплементит и поясняет:
Let's reproduce GPT-2 (124M)
https://www.youtube.com/watch?v=l8pRSuU81PU
Let's build the GPT Tokenizer
https://www.youtube.com/watch?v=zduSFxRajkE
https://github.com/karpathy/llm.c
Там он с 0 gptшки реализует на питоне, на плюсах и на CUDA (который я кстати рекомендую всем изучать, кто интересуется большими моделями да и вообще уметь видяшки прогать это важный навык для млинженера)
Вот один из пользователей сделал свой форк в котором подкрутил параметры, добавил сам чего-то и смог ускорить трейн nanoGPT на 124M что ему теперь достаточно 5B токенов чтобы достичь лосса который у llm.c трейнера достигается на 10B. (на питоне с торчем)
https://github.com/KellerJordan/modded-nanogpt
Я вообще к тому, что лучший способ изучать что-либо - это самому заняться реализацией и улучшением. Так что форкайте llm.c, делайте гптшки и треньте сами!
Ну и видосики можно смотреть по теме, где Андрей сам имплементит и поясняет:
Let's reproduce GPT-2 (124M)
https://www.youtube.com/watch?v=l8pRSuU81PU
Let's build the GPT Tokenizer
https://www.youtube.com/watch?v=zduSFxRajkE
GitHub
GitHub - KellerJordan/modded-nanogpt: NanoGPT (124M) in 3 minutes
NanoGPT (124M) in 3 minutes. Contribute to KellerJordan/modded-nanogpt development by creating an account on GitHub.
🔥16
Forwarded from эйай ньюз
Stanford воплотил в жизнь фильм Живая сталь!
Зацените, что там ребята намутили. Подгрузили датасет из 40 часов кожаной мышечной даты, натренировали роботов на legged_gym (это который недавно представили Nvidea вместе с GR00T, писал здесь ) и rsl_rl. Этого было достаточно, чтобы их робот смог в реальном времени, используя одну камеру, в точности повторять движения человека. Получился реальный Зевс из "Живой стали". (Прикрутить бы железа побольше да моторы помощнее).
Дальше больше. Повторяя за человеком, бот учится делать все самостоятельно. Даже вот на пианино играть. Для обретения навыка с успехом в 60-100% нужно всего 40 (не опять, а снова) повторений. Мне покажи 40 раз, как играть, я не научусь, лол.
Видосы самостоятельной работы, конечно, ускорены, но это лишь вопрос компьютера.
Вот вам
Project page,
пейпер,
датасет,
код!,
список всего харда!!! со ссылками на Амазон для покупки.
Это я понимаю опенсорс, теперь можно хоть дома такого собрать :) Железо обойдется в $108,000, если не учитывать 3D принтер.
@ai_newz
Зацените, что там ребята намутили. Подгрузили датасет из 40 часов кожаной мышечной даты, натренировали роботов на legged_gym (это который недавно представили Nvidea вместе с GR00T, писал здесь ) и rsl_rl. Этого было достаточно, чтобы их робот смог в реальном времени, используя одну камеру, в точности повторять движения человека. Получился реальный Зевс из "Живой стали". (Прикрутить бы железа побольше да моторы помощнее).
Дальше больше. Повторяя за человеком, бот учится делать все самостоятельно. Даже вот на пианино играть. Для обретения навыка с успехом в 60-100% нужно всего 40 (не опять, а снова) повторений. Мне покажи 40 раз, как играть, я не научусь, лол.
Видосы самостоятельной работы, конечно, ускорены, но это лишь вопрос компьютера.
Вот вам
Project page,
пейпер,
датасет,
код!,
список всего харда!!! со ссылками на Амазон для покупки.
Это я понимаю опенсорс, теперь можно хоть дома такого собрать :) Железо обойдется в $108,000, если не учитывать 3D принтер.
@ai_newz
👍7🔥6❤1👎1👏1
https://www.youtube.com/watch?v=7YYwERuy-w4
Оу, наткнулся на реп с окружением на Unity по робофайту с нашими любимыми робособаками и стреляющим павуком.
Ну это просто прикольно
https://github.com/mbaske/angry-ai
Оу, наткнулся на реп с окружением на Unity по робофайту с нашими любимыми робособаками и стреляющим павуком.
Ну это просто прикольно
https://github.com/mbaske/angry-ai
YouTube
Angry AI - Team Deathmatch | Unity ML-Agents
Here's the next part of my little franchise. (Spoiler: gun bots win thanks to their better agility)
The video shows a quick rundown of the training process, including imitation learning, multi-stage training and hierarchical/tiered agent design.
https:/…
The video shows a quick rundown of the training process, including imitation learning, multi-stage training and hierarchical/tiered agent design.
https:/…
👍3
Мы ж тут на пути к AGI, да? в следующем году будет
Наткнулся на тредик в редите за 2020 где автор хотел услышать мнения, а будет ли обучение с подкреплением путем к AGI?
Еще и опросник запилили. И вот результат забавный :))
https://www.reddit.com/r/reinforcementlearning/comments/kjntx8/rl_as_a_path_to_agi/
Наткнулся на тредик в редите за 2020 где автор хотел услышать мнения, а будет ли обучение с подкреплением путем к AGI?
Еще и опросник запилили. И вот результат забавный :))
https://www.reddit.com/r/reinforcementlearning/comments/kjntx8/rl_as_a_path_to_agi/
🌚4😁3👍1
Forwarded from Love. Death. Transformers.
Привет!
Мы влабараторию ебаного ресерча Vikhr models открываем летние стажировки
Что по задачам:
- Мержинг, стакинг, замеринг, эволюционка поверх LLM cтакинга
- собирать крутые инструкт сеты, у нас много gpt4 токенов, если хочется трогать руками RAG, агентность, function calling и прочие хайповые слова - велком!
- Учить Lora на разные задачи и трогать кучу очень интерсных задач (SPPO, DPO, KTO)
- Есть целых! 4v100 и к конце лета приедет а6000
- Собрать самые крутые и самые мемные бенчмарки😎
- развлекатся с vllm, быстрым инференсом и при желании строить опенсуср
- если вам хочется заводить свою шизо идею а на работе не дают - велком, мы сами такие
Оплата: в авторах на хабре, вероятно на arxiv, уникальный опыт(сорян денег реально нет, мы реально работаем на энтузиазме)
Скидывать cv, нюдсы, вопросы, ответы, предложения в: https://forms.gle/54BLnMMxZuNNboev6
Мы в
Что по задачам:
- Мержинг, стакинг, замеринг, эволюционка поверх LLM cтакинга
- собирать крутые инструкт сеты, у нас много gpt4 токенов, если хочется трогать руками RAG, агентность, function calling и прочие хайповые слова - велком!
- Учить Lora на разные задачи и трогать кучу очень интерсных задач (SPPO, DPO, KTO)
- Есть целых! 4v100 и к конце лета приедет а6000
- Собрать самые крутые и самые мемные бенчмарки
- развлекатся с vllm, быстрым инференсом и при желании строить опенсуср
- если вам хочется заводить свою шизо идею а на работе не дают - велком,
Оплата: в авторах на хабре, вероятно на arxiv, уникальный опыт(сорян денег реально нет, мы реально работаем на энтузиазме)
Скидывать cv, нюдсы, вопросы, ответы, предложения в: https://forms.gle/54BLnMMxZuNNboev6
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6💩3🤡2👎1🥰1🤔1
сохраняем листик с симуляторами и библиотекам по роботам (есть и другие но поменьше и уже сильно протухшие)
https://github.com/jslee02/awesome-robotics-libraries
https://github.com/jslee02/awesome-robotics-libraries
GitHub
GitHub - jslee02/awesome-robotics-libraries: :sunglasses: A curated list of robotics libraries and software
:sunglasses: A curated list of robotics libraries and software - jslee02/awesome-robotics-libraries
⚡7