tgoop.com/seeallochnaya/645
Last Update:
Пока вы (мы (я)) спали, Tesla выкатили полутораминутное демо-видео с своим роботом Optimus.
В нём показывается, как робот раскладывает детальки конструктора по цвету в 2 разные коробки, сортируя по цвету. Команда Tesla утверждает, что:
1) робот работает полностью на нейросети, без вручную запрограммированных эвристик;
2) то есть нейросеть получает на вход изображение с камер и положение конечностей, а предсказывает действия, которые необходимо осуществить (то есть подать ток на моторчики);
3) модель тренируется end-2-end, то есть на всей задаче целиком. Не нужно разбивать одну задачу на маленькие ("определи цвет", "возьми кубик", "поверни кубик", итд);
4) нейросеть работает внутри бота, а не в облаке. То есть вычислительные мощности зашиты внутрь, и робот получается автономным — главное чтобы батарейки хватило;
5) Senior Staff Engineer говорит, что "соберите больше данных, и мы сможем выучить новую сложную задачу, не меняя ни одной строчки кода!". В целом звучит круто, осталось понять, что это за данные. Симуляции? Или действия в реальном мире?
6) Также он пишет, что "его можно запромптить (как LLM?), в этом видео используется та же нейросеть для сортировки и перемешивания блоков, вы просто говорите ей, что хотите.". Если там есть текстовый интерфейс - это
7) у робота работают пальцы, он спокойно берет и переворачивает объекты. Мелкая моторика - сложная для программирования вещь, а тут её и делать не нужно, всё само;
8) в конце видео показывается, как хорошо робот балансирует - он встаёт в две йога-стойки и не падает.
Почему это круто? В чём отличие от нашумевших Boston Dynamics?
1) у BD всё программировалось вручную (по крайней мере последний раз когда я проверял, может за пару лет изменилось в корне), и поэтому сложно масштабировалось. Если ваш пёс умеет бегать и прыгать, то научить его ползать это очень сложная задача на год+ целой команде (цифра условная);
2) Тренировка end-2-end позволяет свести любую задачу к проблеме данных. Если у вас много качественных данных — проблема решена. И, как отметил инженер, перепрограммировать ничего не надо. Вероятно, тут он лукавит — Tesla показывали, что они используют виртуальные симуляторы, соответственно надо в них задать новую задачу, а потом просто запустить — и тогда бот разберется, что к чему;
3) прогресс ГОРАЗДО быстрее, чем у BD. Робот был анонсирован всего пару лет назад, а год назад еле ходил. BD были основаны в 1992 году (!), а гуманоидного Atlas показали в 2013м году. И за следующие 10 лет лишь немного улучшили его с точки зрения сложности поведения/действий — потому что всё это плохо масштбируется;
4) Tesla'ой рулит Elon Musk, человек, ориентированный на бизнес. Основная фишка - удешевление, ускорение и масштабирование производства. Это было с Tesla, это происходит в SpaceX. Если поставить производство ботов на поток, они будут очень дешевы, что позволит им конкурировать с рабочими на складах и в McDonalds. И на заводах Tesla, и на фабрике SpaceX на Марсе — тоже!
5) Правда не ясно зачем McDonalds, если такой же робот сможет готовить блюда как шеф с тремя звёздами Мишлен...