Telegram Web
This media is not supported in your browser
VIEW IN TELEGRAM
Похоже, что в ETH Zurich осознали силу колёс. Уже некоторое время они учат робота, у которого во всех 4х конечностях по колесу (разработан компанией ANYbotics, как я понял) выполнять задачки в реальной жизни.
Такая конструкция позволяет ему преодолевать больше препятствий и делает более гибким.

Классифицируется такой робот как: Quadruped-humanoid transformer

Он может приехать, потом вставать на задние колеса, чтобы перЕдними открывать дверь (хотя так сразу не выяснить где у него перед). Или поднимать и бросать коробки. Может лифт вызвать а потом в него заехать.

Наверное было бы классно приделать на него кресло, чтобы можно было удобно доехать куда угодно. Надеюсь в будущем сделают.

Про него есть несколько статей, в которых можно узнать подробнее как его учили.

Здесь его учат вставать и аккуратненько перемещаться:

Advanced Skills through Multiple Adversarial Motion Priors in Reinforcement Learning
https://arxiv.org/abs/2203.14912

Здесь учили работать с коробками и открывать двери в IsaacGym с PPO и Random Network Distillation:

Curiosity-Driven Learning of Joint Locomotion and Manipulation Tasks

https://openreview.net/forum?id=QG_ERxtDAP-

И видосики, чтобы прочувствовать:
https://www.youtube.com/watch?v=kEdr0ARq48A
https://www.youtube.com/watch?v=Qob2k_ldLuw

PS: как же он швырнул эту коробку...
9🔥6😱5
Как же хочется "анатомически детализированную биомеханическую модель всего тела плодовой мухи Drosophila melanogaster в физическом движке MuJoCo". Держите.

13 ученых (в том числе парочка из ❤️DeepMind❤️) объединились, чтобы собрать "Дрозофила фруктовая"🪰 в Blender, смоделить физику в mujoco, сунуть туда свою модель, подключить нейронки с рлем и заставить реалистично ходить и летать.

Страшно реалистичная Drosophila melanogaster живет тут:

Whole-body simulation of realistic fruit fly locomotion with
deep reinforcement learning

https://www.biorxiv.org/content/10.1101/2024.03.11.584515v1

https://github.com/TuragaLab/flybody
17👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Такс. В Японии все стабильно.

Собрали самоходный трехногий табурэт 🪑 из аниме "Suzume" с ардуинкой. У него 6 сервоприводов.
Учили вставать и ходить двумя методами: connecting essential postures (интерполяция между двумя позами для движения) и RLем в Isaac Gym.
Ходит он лучше с connecting essential postures, а вот встает лучше с RLем. (на мой вкус)

Прикольное!

Body Design and Gait Generation of
Chair-Type Asymmetrical Tripedal Low-rigidity Robot

https://arxiv.org/abs/2404.05932

Код чтобы сделать себе такое же

https://shin0805.github.io/chair-type-tripedal-robot

https://github.com/shin0805/Chair-TypeAsymmetricalTripedalRobot

Видео https://www.youtube.com/watch?v=-f8LDlhmdBg
😁82👍2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Идет. (главное чтобы бегать не научили)
🤣14👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Оказывается DeepMind учит играть маленьких робофутболистов ⚽️. Работа была проделана большая.

На видосиках можно посмотреть как они шустро бегают и забивают голы:
https://sites.google.com/view/op3-soccer

Целью было проверить способен ли Deep RL синтезировать сложные и при этом безопасные навыки для маленького гуманоидного робота.
В качестве конкретной задачи выбрали игру в футбол 1 на 1.

В процессе исследований пришли к выводу, что лучшие результаты получаются если тренировать навыки по отдельности, затем компоновать их в сложное поведение.
Потому обучение разбили на 2 фазы.
В 1й учили робота вставать и забивать голы неподготовленному сопернику.
Во 2й учились играть в self-play режиме (против себя же), улучшая свою стратегию, при этом используя навыки из первого этапа для регуляризации (учили через дистиляцию и политика с первого этапа выступала в качестве учителя).

Отметили, что попытки учить все сразу приводило к вырожденным случаям в которых робот либо катался по полу к мячу, чтобы забить его либо просто стоял.

Чтобы облегчить перенос агента из симуляции в реального робота 🤖 (sim-to-real transfer) и не словить проблем добавляли агенту шумов в датчики, задержки и случайных возмущений.
Модель робота The Robotis OP3 (51 см в высоту, 3.5 кг)

Натренированные RLем агенты показали улучшения относительно заскриптованного поведения:
* шли 181% быстрее (скорость движения вперед 0,57 м/с)
* тратили на вставание 63% меньше времени;
* поворачивались 302% быстрее( скорость поворота 2,85 рад/с);
* пинали ногами на 34% быстрее;

Ещё разработчики заметили, что агенты научились предсказывать движение мяча и блокировать удары соперника! (и много движений, которым их специально не учили)

Но в работе описано и много нюансов, лучше почитать в статье.

В общем ❤️DeepMind❤️

Читаем тут:

Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning
https://www.science.org/doi/10.1126/scirobotics.adi8022

Прошлогодняя версия: https://arxiv.org/abs/2304.13653
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥5👍2
Forwarded from Dealer.AI
Plan GPT. Или до Q* было слово A*.

Рубрика ночное чтиво. Ознакомился тут со статьей на послевкусии хайпа с Q*. Было интересно, а были/есть ли работы и откуда пошел динамический планинг.

В папире описывается интересный merge задач оптимального поиска пути и LLM. В качестве опоры берут A*, тот самый, что ищет в среде с ограничениями (например лабиринт) оптимальный путь. Причем оптимальность лежит в оценке эвристики. Она задаëтся так, чтобы недооценивать расстояние до цели. Да, такого рода ограничение сверху или снизу, скорее всего снизу, тк есть препятствия, а они удлиняют путь. И, к примеру, манхэттен или l2 расстояния подходят для такой оценки. A* представляет собой некую смесь поиска в ширину и глубину, но за кратчайшее число шагов/время. Оптимальный путь может быть не один и зовется трейсом.

Так вот причем тут LLM? С LLM мы можем также генерировать последовательность действий при планировании. Например в виде токенов: иди вперед, поверни направо и тп. Далее транслировать генерацию в трейс и оценить путь. Важно. Задача LLM тут не изобрести новый алгоритм или найти оптимальный путь.
Цель обучения в том, чтобы приблизившись или достигнув оптимального пути из трейсов A*, научиться планированию. А далее затрансферить это умение для других задач, к примеру, принятия решения.

Логично, зачем нам искать LLM трейсы, если мы можем итак их найти быстро с помощью легкого и быстрого А*. Более того, мы уже опираемся на разные трейсы из задач в постановке А* для обучения LLM.

Зачем оно было еще надо? Да затем, что мы не хотим останавливаться только на костылях в виде CoT, ToT (tree of thought). Тем более, есть гипотеза, что это работает, тк это способ достучаться до рассуждений которые для похожих задач (или даже таких же) уже были в pretrain этой модели. Через sft с опорой на A*, мы же хотим найти альтернативу instruct подходу, но решающий уже другие классы задач.

Вот как-то так. Доброй ночи.
🔥113👍2🤔2
Media is too big
VIEW IN TELEGRAM
Там собрали окружение (на базе виртуальной машины) для тестирования мультимодальных агентиков в работе с реальной операционной системой.
Внутри стоят реальные приложения, которыми мы с вами пользуемся. Также на выбор несколько операционок.

Агент может управлять мышкой и клавиатурой.
А на входе получает скриншот экрана + XML-format accessibility (a11y) tree (дерево доступности, представляющее собой дополнительную информацию вроде позиций окон и их размеров, позиции указателя и тд), а еще инструкцию с описанием задачи.

Ещё подготовили бенчмарк с 369 задачками, на котором протестировали современные LLM/VLM.
Задачки вроде: "Можешь помочь мне очистить мой компьютер, избавившись от всех файлов cookie, которые мог сохранить Amazon?", которые проверяют способность пользоваться возможностями операционных систем и программ.

Пишут, что человек способен выполнить 72.36% всех задач.

GPT-4 показала лучший результат среди LLMок: 12.24% (получая на вход A11y tree).
GPT-4V показала результат 12.17% (Screenshot + A11y tree на входе).

Интересненько. Отсюда ведь можно еще и датасетики собирать теперь, чтобы учиться...

https://os-world.github.io/

https://github.com/xlang-ai/OSWorld

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
https://arxiv.org/abs/2404.07972
14🔥4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Как GPT-4V в RDR2 играла.

Авторы поставили задачу General Computer Control (GCC): создание foundation агентов для решения любых компьютерных задач также как это делают люди, т.е. когда на вход агенту подаются те же данные, что и человеку (например изображения с экрана/текст/звук), а управлять можно клавиатурой и мышкой.

Для решеия задачи разработали фреймворк Cradle.
Состоит из 6 модулей:
1. Сбор информации.
На вход подается изображение (скриншот и элементы пользовательского интерфейса) + текстовая информация (заголовки и абзацы текста с экрана, меню и тд полученные через OCR).
2. Self-reflection. Позволяет модели поразмышлять о действиях и задачах;
3. Task inference. Обработка пула задач для выбора следующей задачи;
4. Skill curation. Создание и обновления списка навыков;
5. Action planning. Здесь агент пишет код для управления клавиатурой и мышкой; (~ нажимать W 5 секунд чтобы идти вперед)
6. Memory. Память для хранения и использования предыдущего опыта и навыков;

Ну и подключили GPT-4V с Cradle к Red Dead Redemption 2.

Что выявили:
* GPT-4V пока плохо справляется с пространственно-визуальным восприятием, отчего страдает управление персонажем.
* Не всегда правильно интерпретирует мини-карту. Например иногда неправильно определяет направление центральной стрелочки, потому теряется и не выполняет задачу.
* При работе с длинным контекстом отвлекается на несущественные события в игре и галлюцинирует.
* Авторы полагают, что из-за отсутствия у GPT-4V модели мира RDR2, делает неправильные выводы из прошлых действий, отчего неправильно выбирает следующие. (опа, world models)
* Без модуля Self-reflection результаты сильно хуже.

Так понял.
В общем-то ожидаемый результат, посмотрим за прогрессом в мультимодальных агентах.

https://baai-agents.github.io/Cradle/

Towards General Computer Control: A Multimodal
Agent for Red Dead Redemption II as a Case Study

https://arxiv.org/abs/2403.03186

Код https://github.com/BAAI-Agents/Cradle

Видосик с попытками GPT-4V играть RDR2:
https://www.youtube.com/watch?v=Cx-D708BedY
🔥9👍3🤩1
Проценты по выполнению конкретных задачек. Модули self-reflection + планирование решают.
Чтобы найти дом и чего-нибудь купить надо хорошенько подумать 😁
👍3
А там BostonDynamics показали новую версию платформы для роботов Atlas.
Пишут, что новое поколение будет сильнее и сможет выполнять более широкий диапазон движений.

https://bostondynamics.com/blog/electric-new-era-for-atlas/

Недавно BostonDynamics попрощались с гидравлической версией Atlas. Новая версия является полностью электрической и использует электромоторы.

Делают вместе с Hyundai, на чьих заводах новые роботы также будут применяться.

Упомянули, что оснащают своих роботов программным обеспечением с модулями обучения с подкреплением и компьютерным зрением, частью которого является RL Researcher Kit.

RL Researcher Kit применяется, чтобы научить робота новым умениям, преодолевать больше препятствий и стабильнее передвигаться.

Про робота Spot и Spot RL Researcher Kit:
https://bostondynamics.com/blog/starting-on-the-right-foot-with-reinforcement-learning/
🔥9👍1
Forwarded from Сиолошная
Many-Shot In-Context Learning

LLM известны своим навыком In-Context Learning (ICL) — они могут выучить новую задачу без непосредственно обучения, просто по демонстрации примеров в промпте. Однако долгое время количество подаваемых примеров оставалось маленьким — 4-8, может, 25 максимум. Однако модели текущего поколения набирают обороты, и у той же Gemini 1.5 Pro в контекст влазит аж 1М токенов — хватит на сотни и даже тысячи примеров решений!

Поэтому авторы из DeepMind возвращаются к вопросу ICL и исследуют изменение качества при увеличении количества примеров. Результаты ожидаемые - почти всегда и почти везде качество растёт, тут ничего удивительного. Например, в задаче машинного перевода на редкие языки (с английского на курдский и тамильский) Gemini 1.5 Pro обходит гугл переводчик (в промпте при этом примерно 85-100k токенов пар-примеров с переводом). В разных бенчмарках по математике и рассуждениям тоже наблюдаются приросты — картинка будет в первом комментарии.

Один из вопросов с точки зрения практики - готовы ли вы платить +$0.5 за обращение к модели, чтобы поднять качество ответов на 5-15%? Уверен, найдутся домены, где это окупается.

«Ну так блин, для этого надо столько разметки вручную делать, это не всегда доступно» — можете заметить вы, и будете правы. Поэтому начинается интересная часть, делящаяся на два направления:
1) подавать просто текст проблем в промпт, без решений и ответов (называется Unsupervised ICL)
2) генерировать решения LLM'кой (и отбирать их по имеющемуся ответу) и брать их. Да, в таком случае некоторые неправильные решения могут приводить к верному ответу. Называется Reinforced ICL.

Эти два метода расширяют применимость ICL с большим количеством решений — в первом так вообще ничего не надо, кроме текстов проблем. И...это тоже увеличивает качество. RICL так вообще почти всегда показывает такое же качество (и даже лучше!), чем демонстрация написанных людьми решений. И даже UICL иногда работает — вероятно, потому, что модель лучше понимает и формирует внутри себя представление о том, с какими проблемами имеет дело.

Лично мне в статье не хватило сравнения с RAG подходом, когда отдельная модель сначала из всего корпуса проблем и/или решений выбирает самые подходящие, подаёт их в промпт, а затем уже LLM генерирует ответ. Тут не нужен большой контекст, и потенциально можно отфильтровать шум. Быть может этот метод будет давать качество ещё выше 🤷‍♀️

Ждём модели с 100M контекста, чтобы кормить им описание всего, что только под руку попадётся — даже если за это придётся платить долор(
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла Ллама 3.

8B, 70B. (8192 tokens)
После тестиков в ближайшее время узнаем что в реальности по бенчам.

Веса (придется формочку заполнить)
https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

Код
https://github.com/meta-llama/llama3

Обещают 400B+ модельку. Марк Цукерберг все еще тренирует её. (на видео)
😁17🔥4👍1
Сравнение Llama 3 vs Llama 2 от самих авторов 🤨
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔7👍3
https://huggingface.co/IlyaGusev/saiga_llama3_8b

Обучал unsloth'ом чуть больше часа на RTX 4090. Сейчас ещё поставил обучение старым кодом. Особо не тыкал, по тестовым промптам вполне неплохо. GGUF будет, но завтра.
👍4
сайга на Llama 3, чтобы русский вкрутить 🔼
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
🎙— Радиоэфир "Embodied AI"

Мы знаем, что у нас активная аудитория и хотим попробовать новый формат - Радиоэфир!

В этом формате наши руководители, сотрудники и приглашенные гости будут делиться своим знанием, видением и обсуждать новости по выбранной теме.
У вас, как наших подписчиков, будет не только возможность послушать, но и поучаствовать в обсуждении и задать свои вопросы!

🗓 Дата: В пятницу 19.04.24 в 17.00

Спикеры:
- Александр Панов, руководитель Центра когнитивного моделирования МФТИ
- Алексей Ковалёв, доцент Центра когнитивного моделирования МФТИ

Присоединяйтесь к диалогу, делитесь опытом и участвуйте в обсуждении!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👌1
2025/07/13 11:03:17
Back to Top
HTML Embed Code: