Forwarded from эйай ньюз
Набор инструкций H100 и 4090 теперь задокументирован 👏
Умелец смог при помощи фаззера задокументировать набор инструкций актуальных карт Nvidia. Сама Nvidia такое в паблик не пускает, чтобы всё шло через CUDA, максимум PTX. Таким образом они добиваются вендорлока к картам Nvidia в целом, а не одной конкретной архитектуре.
Проблема в том, что без такой документации заметно сложнее делать оптимизации под конкретные архитектуры. А вот с ней и альтернативные компиляторы для карт Nvidia делать будет проще, может, будут даже такие, что не качают пять гигов зависимостей (что-то я замечтался).
Дальше автор собирается добавить данные о производительности каждой инструкции, что потребует кучу микробенчмарков.
H100
RTX 4090
Код
@ai_newz
Умелец смог при помощи фаззера задокументировать набор инструкций актуальных карт Nvidia. Сама Nvidia такое в паблик не пускает, чтобы всё шло через CUDA, максимум PTX. Таким образом они добиваются вендорлока к картам Nvidia в целом, а не одной конкретной архитектуре.
Проблема в том, что без такой документации заметно сложнее делать оптимизации под конкретные архитектуры. А вот с ней и альтернативные компиляторы для карт Nvidia делать будет проще, может, будут даже такие, что не качают пять гигов зависимостей (что-то я замечтался).
Дальше автор собирается добавить данные о производительности каждой инструкции, что потребует кучу микробенчмарков.
H100
RTX 4090
Код
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍3🤔1
Маленькая тулза для разметки датасетиков. (сам не пробовал, только что наткнулся)
По сути опенсурсной ллмкой размечает немного данных, тренит нам классификатор и если качество не очень то будет данных досыпать.
Есть мордочка на Gradio
Автор пишет, что мол без человеческой разметки (а с ллмной) смог натренить distilbert на IMDb датасете на 88% акураси. Ну ок
https://github.com/e-p-armstrong/augmentoolkit
PS ллмку самим поднять надо будет и к этому тулу прицепить
По сути опенсурсной ллмкой размечает немного данных, тренит нам классификатор и если качество не очень то будет данных досыпать.
1. LLM generates classification data from a subset of provided text
2. A classifier is trained on this LLM-generated data
3. The classifier is evaluated against a larger LLM for accuracy
4. If accuracy is insufficient, more data is added and training repeats
5. The process concludes when desired accuracy is achieved
Есть мордочка на Gradio
Автор пишет, что мол без человеческой разметки (а с ллмной) смог натренить distilbert на IMDb датасете на 88% акураси. Ну ок
https://github.com/e-p-armstrong/augmentoolkit
PS ллмку самим поднять надо будет и к этому тулу прицепить
Выкатили Flash Attention 3, он оптимизирован под поколение Hopper (H100, H800)
Почитать
https://tridao.me/publications/flash3/flash3.pdf
https://tridao.me/blog/2024/flash3/
Код (там же где и предыдущие)
https://github.com/Dao-AILab/flash-attention
Осталось купить H100/H800☔️
Почитать
https://tridao.me/publications/flash3/flash3.pdf
https://tridao.me/blog/2024/flash3/
Код (там же где и предыдущие)
https://github.com/Dao-AILab/flash-attention
Осталось купить H100/H800
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Немножко обзорных статей с листиками
Большая обзорка по Mixture of Experts (ну мб кому надо, хз зачем)
A Survey on Mixture of Experts
https://arxiv.org/abs/2407.06204
https://github.com/withinmiaov/A-Survey-on-Mixture-of-Experts
Ну и дип лернинг в доказательстве теорем (это каждому надо)
A Survey on Deep Learning for Theorem Proving
https://arxiv.org/abs/2404.09939
https://github.com/zhaoyu-li/DL4TP
Большая обзорка по Mixture of Experts (ну мб кому надо, хз зачем)
A Survey on Mixture of Experts
https://arxiv.org/abs/2407.06204
https://github.com/withinmiaov/A-Survey-on-Mixture-of-Experts
Ну и дип лернинг в доказательстве теорем (это каждому надо)
A Survey on Deep Learning for Theorem Proving
https://arxiv.org/abs/2404.09939
https://github.com/zhaoyu-li/DL4TP
arXiv.org
A Survey on Mixture of Experts in Large Language Models
Large language models (LLMs) have garnered unprecedented advancements across diverse fields, ranging from natural language processing to computer vision and beyond. The prowess of LLMs is...
❤3
Прямо сейчас идет контест LLM4HWDesign, с целью компиляции сообществом качественного Verilog (язык описания цифровых схем, можно проектировать некоторый хардвар) датасета для LLMок для дизайна аппаратного обеспечения. Спонсирует не самая дорогая компания в мире (NVidia, прямо сейчас на 3 месте).
Длится до октября.
https://nvlabs.github.io/LLM4HWDesign/
В качестве бейзлайна берут датасет: https://huggingface.co/datasets/GaTech-EIC/MG-Verilog
Контест состоит из двух фаз. На первой изучают методы сбора и генерации ллмками Verilog кода, на второй будет фильтрация, описание, лейблинг данных ллмками.
Ждем LLMок проектировщиков хардвара.
НВидия прям во всех направлениях ИИ пытается двигаться, регулярно и ллмки делает и RL и еще всякий ресерч.хочет продавать больше видях
Ну а призы за первое и второе место дают 4080 (+ $2k, $1k денег), за третье 4070 + $500. Чо, ни одной 4090? Это грустное.
Длится до октября.
https://nvlabs.github.io/LLM4HWDesign/
В качестве бейзлайна берут датасет: https://huggingface.co/datasets/GaTech-EIC/MG-Verilog
Контест состоит из двух фаз. На первой изучают методы сбора и генерации ллмками Verilog кода, на второй будет фильтрация, описание, лейблинг данных ллмками.
Ждем LLMок проектировщиков хардвара.
НВидия прям во всех направлениях ИИ пытается двигаться, регулярно и ллмки делает и RL и еще всякий ресерч.
Ну а призы за первое и второе место дают 4080 (+ $2k, $1k денег), за третье 4070 + $500. Чо, ни одной 4090? Это грустное.
👍5
Небольшое введение в область + обзор по работам в направлении применения геометрических, топологических и алгебраических структур в MLе. Как в данных так и в самих модельках. (как применяются, где возникают и тд)
Красивое + интересное
Beyond Euclid: An Illustrated Guide to Modern Machine Learning with Geometric, Topological, and Algebraic Structures https://arxiv.org/abs/2407.09468
Красивое + интересное
Beyond Euclid: An Illustrated Guide to Modern Machine Learning with Geometric, Topological, and Algebraic Structures https://arxiv.org/abs/2407.09468
👍10🔥5❤2🤔1
Forwarded from ду́но
Мы ищем стажеров!
👩🌾
Тестовые задания и подробные описания позиций можно найти по ссылкам выше, дедлайн подачи заявки — 15 августа.
- - —
@dunnolab
👩🌾
shorties
— это персональная программа, в которой мы выращиваем таланты до полноценных Research Engineer’ов или Research Scientist’ов в зависимости от ваших интересов.🔭 Intern Research Scientist
Вы будете заниматься написанием статей на top-tier ИИ конференции (NeurIPS, ICLR, ICML) и участием в научном дискурсе: проведение экспериментов, проверка и генерация исследовательских идей, которые направлены на развитие научного знания.
🧪 Intern Research Engineer
Вы будете заниматься созданием новых frontier-технологий и применением Reinforcement Learning в реальных задачах.
Тестовые задания и подробные описания позиций можно найти по ссылкам выше, дедлайн подачи заявки — 15 августа.
- - —
@dunnolab
🔥7👍2
Есть играющие в Path of Exile? В стиме такая игруха есть, но я как-то не дошел.
Но дошел Денни Бритз. У него занятный гитхаб:
https://github.com/dennybritz
Много разного имлементирует и с 0 пишет (кучи разных нейроночек, RL алгоритмы), вполне можно глянуть.
Короче в Path of Exile можно крафтить вещи и система эта непростая, из-за чего многие игроки предпочитают вещи покупать а не делать самим.
Как насчет найти оптимальные способы крафта любых штук? Например используя обучение с подкреплением.
https://dennybritz.com/posts/poe-crafting/
Состояние у нас это текущее состояние создаваемой вещи.
Действия - применить доступные модификаторы.
Денни рассказывает как построить модель динамики среды и использвать value-iteration алгоритм для решения задачи.
Мне показалось интересным :)
Но дошел Денни Бритз. У него занятный гитхаб:
https://github.com/dennybritz
Много разного имлементирует и с 0 пишет (кучи разных нейроночек, RL алгоритмы), вполне можно глянуть.
Короче в Path of Exile можно крафтить вещи и система эта непростая, из-за чего многие игроки предпочитают вещи покупать а не делать самим.
Как насчет найти оптимальные способы крафта любых штук? Например используя обучение с подкреплением.
https://dennybritz.com/posts/poe-crafting/
Состояние у нас это текущее состояние создаваемой вещи.
Действия - применить доступные модификаторы.
Денни рассказывает как построить модель динамики среды и использвать value-iteration алгоритм для решения задачи.
Мне показалось интересным :)
🔥14👏2❤1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Это симулятор обхода поликлиники? 🤨
Много работ есть по генерации сцены. А в Нвидии делают человечка который мог бы по 3д сцене перемещаться.
На входе 3д сцена + текстовая инструкция откуда и куда нужно дойти.
Планировщик генерирует путь между двумя точками со скоростью и положением головы в пространстве на каждый шаг времени. Траектория генерируется на 5 секунд вперед с 10 семплами. Дальше контроллер движения по карте высот, текущей позе человечка и целевой траектории выдает движения для каждого сустава. Контроллер движения обучается методом обучения с подкреплением, награда зависит от следования пути и от реалистичности движения. Подробности можно посмотреть в статье.
Короче если в играх с поддержкой RTX увидите нервно шатающихся ботов, то там может быть как раз эта разработка.
PlaMo: Plan and Move in Rich 3D Physical Environments
https://arxiv.org/abs/2406.18237v1
А вот здесь можно посмотреть полный видосик с другими сценами и фейлами
https://www.youtube.com/watch?v=wWlqSQlRZ9M
Много работ есть по генерации сцены. А в Нвидии делают человечка который мог бы по 3д сцене перемещаться.
На входе 3д сцена + текстовая инструкция откуда и куда нужно дойти.
Планировщик генерирует путь между двумя точками со скоростью и положением головы в пространстве на каждый шаг времени. Траектория генерируется на 5 секунд вперед с 10 семплами. Дальше контроллер движения по карте высот, текущей позе человечка и целевой траектории выдает движения для каждого сустава. Контроллер движения обучается методом обучения с подкреплением, награда зависит от следования пути и от реалистичности движения. Подробности можно посмотреть в статье.
Короче если в играх с поддержкой RTX увидите нервно шатающихся ботов, то там может быть как раз эта разработка.
PlaMo: Plan and Move in Rich 3D Physical Environments
https://arxiv.org/abs/2406.18237v1
А вот здесь можно посмотреть полный видосик с другими сценами и фейлами
https://www.youtube.com/watch?v=wWlqSQlRZ9M
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍3🥰3😁2
Так ребятки, принес вам папочку с классными
авторскими ИИ каналами
(я-то на многие подписан, думаю и вам понравится)
А там например есть канал Александра Голубева
http://www.tgoop.com/AIexTime
У него кстати пост выходил на хабре про LLM-агентов. Если не понимаете как там и что в ллмных агентиках работает, то читать.
А вот тут и про RL (он всегда нужен) и как world models помогают роботам учиться
https://www.tgoop.com/AIexTime/58
Посмотрите видосик. Там робопес получается лежал на спине (его корежило), он пытался вставать. А если стараться, то рано или поздно получится... Через час он научился вставать и ходить (рльное чудо).
Думаю еще через час он бы устроился на работу.
авторскими ИИ каналами
(я-то на многие подписан, думаю и вам понравится)
А там например есть канал Александра Голубева
http://www.tgoop.com/AIexTime
У него кстати пост выходил на хабре про LLM-агентов. Если не понимаете как там и что в ллмных агентиках работает, то читать.
А вот тут и про RL (он всегда нужен) и как world models помогают роботам учиться
https://www.tgoop.com/AIexTime/58
Посмотрите видосик. Там робопес получается лежал на спине (его корежило), он пытался вставать. А если стараться, то рано или поздно получится... Через час он научился вставать и ходить (рльное чудо).
Думаю еще через час он бы устроился на работу.
Telegram
Авторский ИИ
Dr. Boris invites you to add the folder “Авторский ИИ”, which includes 30 chats.
🔥10👍5😁3
Наткнулся на проект по созданию файтинга с поединками роботов управляемых нейронками. Называется Final Automata.
Конкретно здесь бьются 2 бота с разными боевыми стилями.
Правда ни на сайте ни в ютубе особо подробностей нет, чисто несколько видосов о том, что роботы тренятся в симуляции а затем спарингуются.
Может суть в том чтобы настроить тренировочный процесс для бота так, чтобы выучивался наиболее эффективный стиль боя?
Делается на Unity с библиотекой ml-agents и обучением с подкреплением.
https://www.youtube.com/watch?v=7AnJAlDFTN0
На канале можно найти еще несколько видео
In 2050, robot technology redefines conflict. Violence among humans is history, and AI-driven robots are the new weapons to settle scores between factions and nations. FINAL AUTOMATA is where the action’s at. Here, technology is the tool of power that shapes the very nature of the new world order. This isn't just a fight; it's a high-tech war for dominance. The challenge is ON.
Конкретно здесь бьются 2 бота с разными боевыми стилями.
Правда ни на сайте ни в ютубе особо подробностей нет, чисто несколько видосов о том, что роботы тренятся в симуляции а затем спарингуются.
Может суть в том чтобы настроить тренировочный процесс для бота так, чтобы выучивался наиболее эффективный стиль боя?
Делается на Unity с библиотекой ml-agents и обучением с подкреплением.
https://www.youtube.com/watch?v=7AnJAlDFTN0
На канале можно найти еще несколько видео
YouTube
[FA01] TUFF (Boxer) vs RUFF (Brawler) | AI-controlled Simulated Robots Fight
🤖 Final Automata is the next-gen fighting game where the robot fighters are entirely controlled by AI.
📜 PROLOGUE:
In 2050, robot technology redefines conflict. Violence among humans is history, and AI-driven robots are the new weapons to settle scores between…
📜 PROLOGUE:
In 2050, robot technology redefines conflict. Violence among humans is history, and AI-driven robots are the new weapons to settle scores between…
🔥7👍1👏1
Ммм, кайфологи из DeepMind рассказывают про AlphaGeometry2 + AlphaProof
https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/
AlphaProof работает на RLе
Около миллиона неформальных математических задач переводятся на формальный математический язык (LEAN) с помощью нейросетки-формализатора. Затем сеть-решатель ищет доказательства или опровержения проблем, постепенно обучаясь с помощью AlphaZero решать более сложные проблемы.
AlphaGeometry 2 на гемини:
Пишут что AG2 может решить 83% геометрических задач с IMO за последние 25 лет.
Обе системы накинули на 6 задач IMO 2024:
AlphaProof решила две задачи по алгебре и одну задачу по теории чисел, определив ответ и доказав его. В числе этих задач была и самая сложная, которую на IMO в этом году решили всего пять участников. AlphaGeometry 2 доказала задачку по геометрии, в то время как две комбинаторные задачки остались нерешенными.
PS: за RL спасибо
https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/
AlphaProof работает на RLе
Около миллиона неформальных математических задач переводятся на формальный математический язык (LEAN) с помощью нейросетки-формализатора. Затем сеть-решатель ищет доказательства или опровержения проблем, постепенно обучаясь с помощью AlphaZero решать более сложные проблемы.
AlphaGeometry 2 на гемини:
Это нейро-символическая гибридная система, в которой языковая модель была основана на Gemini и обучена с нуля на гораздо большем количестве синтетических данных, чем ее предшественница. Это помогло модели решить гораздо более сложные задачи геометрии, включая задачи о движении объектов и уравнениях углов, отношений или расстояний.
Пишут что AG2 может решить 83% геометрических задач с IMO за последние 25 лет.
Обе системы накинули на 6 задач IMO 2024:
AlphaProof решила две задачи по алгебре и одну задачу по теории чисел, определив ответ и доказав его. В числе этих задач была и самая сложная, которую на IMO в этом году решили всего пять участников. AlphaGeometry 2 доказала задачку по геометрии, в то время как две комбинаторные задачки остались нерешенными.
PS: за RL спасибо
👍6🔥4🤔1🤯1
Вот бы и OpenAI чего-нибудь крутого показали...
Ну а OpenAI показывают SearchGPT
На святое покусились! да, Google?
https://openai.com/index/searchgpt-prototype/
Ну а OpenAI показывают SearchGPT
На святое покусились! да, Google?
https://openai.com/index/searchgpt-prototype/
Openai
SearchGPT is a prototype of new AI search features
We’re testing SearchGPT, a temporary prototype of new search features that give you fast and timely answers with clear and relevant sources.
🔥3😁3
Forwarded from Alexander C
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Сергей Лыткин (к.ф.-м.н.) "Введение в Reinforcement Learning методы на графах»
⌚️ Пятница 26 июля, 18.00 (по Москве)
Add to Google Calendar
Будет рассказано применение методов RL к задачам теории графов. Дистанция на графе (до выделенной вершины или множества вершин) - удовлетворяет очень простому варианту уравнения Беллмана d(g) = 1 + min_{neigbours of g} d(neigbour) . Тем самым методы RL дают возможность искать решения уравнения Беллмана, а значит в частности находить метрику на графе, стартуя с произвольной инициализации. Как быстро будут сходиться алгоритмы RL ? Можно ли улучшить сходимость сделав правильную инициализацию ? Эти вопросы будут рассмотрены в докладе, ответы на них не так очевидны.
Будут рассмотрены примеры графа состояний (Кэли) маленького кубика Рубика размера 2×2×2 ( больше 3 миллионов состояний). Данный граф достаточно мал, для того чтобы было удобно и быстро проводить эксперименты, но уже нетривиален и можно видеть общие феномены.
Более общо методы Deep-Q-learning - нейронные сети совмещенные c RL позволяют работать с графами сверх больших размеров - 10^100. По аналогии с работами, где обучение с подкреплением с успехом применяется для нахождения оптимальных решений в играх с очень большим числом состояний, таких как шахматы или го (вспомним AlphaGo, AlphaZero, MuZero).
Notebooks: https://www.kaggle.com/code/fedmug/bellman-rc2
Notebooks: https://www.kaggle.com/code/fedmug/bellman-convergence-for-rc2
(Апвоуты - приветствуются ! )
Приходите на доклад ! А, также, если Вам интересно машинное обучение и/или математика - приглашаем Вас принять участие в проекте по применению методов МЛ/RL к теории групп/графов Кэли - напишите @alexander_v_c - если хотите принять участие.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
👨🔬 Сергей Лыткин (к.ф.-м.н.) "Введение в Reinforcement Learning методы на графах»
⌚️ Пятница 26 июля, 18.00 (по Москве)
Add to Google Calendar
Будет рассказано применение методов RL к задачам теории графов. Дистанция на графе (до выделенной вершины или множества вершин) - удовлетворяет очень простому варианту уравнения Беллмана d(g) = 1 + min_{neigbours of g} d(neigbour) . Тем самым методы RL дают возможность искать решения уравнения Беллмана, а значит в частности находить метрику на графе, стартуя с произвольной инициализации. Как быстро будут сходиться алгоритмы RL ? Можно ли улучшить сходимость сделав правильную инициализацию ? Эти вопросы будут рассмотрены в докладе, ответы на них не так очевидны.
Будут рассмотрены примеры графа состояний (Кэли) маленького кубика Рубика размера 2×2×2 ( больше 3 миллионов состояний). Данный граф достаточно мал, для того чтобы было удобно и быстро проводить эксперименты, но уже нетривиален и можно видеть общие феномены.
Более общо методы Deep-Q-learning - нейронные сети совмещенные c RL позволяют работать с графами сверх больших размеров - 10^100. По аналогии с работами, где обучение с подкреплением с успехом применяется для нахождения оптимальных решений в играх с очень большим числом состояний, таких как шахматы или го (вспомним AlphaGo, AlphaZero, MuZero).
Notebooks: https://www.kaggle.com/code/fedmug/bellman-rc2
Notebooks: https://www.kaggle.com/code/fedmug/bellman-convergence-for-rc2
(Апвоуты - приветствуются ! )
Приходите на доклад ! А, также, если Вам интересно машинное обучение и/или математика - приглашаем Вас принять участие в проекте по применению методов МЛ/RL к теории групп/графов Кэли - напишите @alexander_v_c - если хотите принять участие.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
👍7💩1
Forwarded from ду́но
Рассказываем о нашей работе принятой на ICML 2024. В деталях.
🌻Контекст🌻
In-Context RL позволяет обучать агентов способных на адаптацию к новым задачам прямо во время инференеса, то есть zero-shot. При этом не происходит обновлений весов модели или обучения Q-функции; вся адаптация вшита при обучении в механизм внимания.
Не сказка ли? Может быть, если бы не одно но: процесс сбора данных. В AD предлагается поступить так: возьмём
Но что это за число
🌻Что предлагаем мы?🌻
Чтобы облегчить сбор данных и тем самым приблизить in-context RL к применению в реальных задачах, мы предложили способ генерации историй с помощью шума.
Часто так бывает, что мы не можем решить задачу с нуля RL-ем, но имеем некоторый набор почти оптимальных демонстраций. Мы можем обучить на этом обычный Behavior Cloning, но он не будет обладать способностями к in-context, т.к. данные не содержали истории обучения. Как же теперь получить историю обучения, когда мы имеем только конечную политику эксперта?
Идея простая: давайте просто начнём постепенно добавлять больше и больше шума, то есть с вероятностью
🌻И это работает?🌻
Да.
Для тестирования мы использовали классические в in-context RL среды: Dark Room (grid-MDP), Dark Key-to-Door (grid-POMPD), Watermaze (3D-MDP). Обученный на наших данных агент приобретает способности in-context адаптации к новым задачам. Что удивительно, вы можете использовать для генерации демонстрации далекие от оптимальных. Например, наш агент в некоторых случаях смог превзойти лучший результат в данных более чем в два раза.
код – статья – постер (4k) – ilya's talk
- - —
@dunnolab
🌻Контекст🌻
In-Context RL позволяет обучать агентов способных на адаптацию к новым задачам прямо во время инференеса, то есть zero-shot. При этом не происходит обновлений весов модели или обучения Q-функции; вся адаптация вшита при обучении в механизм внимания.
Не сказка ли? Может быть, если бы не одно но: процесс сбора данных. В AD предлагается поступить так: возьмём
n
задач в среде и для каждой из них обучим своего RL-ного агента. Во время обучения будем сохранять их полную историю обучения, то есть все состояния, действия и награды. Таким образом мы соберём n
историй обучения, в начале которых агент не умеет ничего, а в конце уже успешно решает задачу. На них и будем обучать трансформер предсказывать следующее действие.Но что это за число
n
? Какого оно порядка? Оказывается, для успешного обучения на весьма простой задаче нужно обучить около тысячи (sic!) RL агентов. Понятно, что такой подход недёшев в плане вычислений и времени.🌻Что предлагаем мы?🌻
Чтобы облегчить сбор данных и тем самым приблизить in-context RL к применению в реальных задачах, мы предложили способ генерации историй с помощью шума.
Часто так бывает, что мы не можем решить задачу с нуля RL-ем, но имеем некоторый набор почти оптимальных демонстраций. Мы можем обучить на этом обычный Behavior Cloning, но он не будет обладать способностями к in-context, т.к. данные не содержали истории обучения. Как же теперь получить историю обучения, когда мы имеем только конечную политику эксперта?
Идея простая: давайте просто начнём постепенно добавлять больше и больше шума, то есть с вероятностью
ε
будем делать действие по политике, а с вероятностью 1 - ε
делаем случайное действие. При этом с каждым шагом мы увеличиваем ε
вплоть до единицы. Получается, что когда ε = 1
агент не умеет ничего, а при ε = 0
успешно решает задачу. Вот мы и восстановили историю (на самом деле, получили прокси историю) обучения.🌻И это работает?🌻
Да.
Для тестирования мы использовали классические в in-context RL среды: Dark Room (grid-MDP), Dark Key-to-Door (grid-POMPD), Watermaze (3D-MDP). Обученный на наших данных агент приобретает способности in-context адаптации к новым задачам. Что удивительно, вы можете использовать для генерации демонстрации далекие от оптимальных. Например, наш агент в некоторых случаях смог превзойти лучший результат в данных более чем в два раза.
код – статья – постер (4k) – ilya's talk
- - —
@dunnolab
👍10❤6🔥4👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Роботяге сказали что зарплаты сегодня не будет
😢11👏9😁4👍2