MACHINELEARNING_INTERVIEW Telegram 2196
⚡️ Kyvo — новая универсальная модель от Caltech

Kyvo — это трансформер, который умеет работать сразу с текстом, изображениями и 3D-сценами. Он синхронизирует всё это *токен за токеном*, что открывает новые возможности для мульти-модальных ИИ.

🔍 Что делает Kyvo
- Представляет 3D-сцену как список объектов с атрибутами: форма, размер, тип, поза, положение.
- Объединяет текст, изображения и 3D в одно общее представление.
- Может рендерить картинку по сцене, восстанавливать 3D по фото, отвечать на вопросы о сцене или менять её по инструкции.
- Использует специальные кодировки для более точного восстановления форм объектов.

🧪 На чём проверяли
- Датасеты: CLEVR, ObjaWorld, Objectron, ARKitScenes.
- Задачи: рендеринг, распознавание объектов, инструкции к сцене, ответы на вопросы.

Чем интересна:
- Универсальность: одна модель - много задач и форматов данных.
- Гибкость: одинаково хорошо работает и в генерации, и в понимании.
- Шаг к тому, чтобы ИИ начал воспринимать мир в трёх измерениях, а не только в 2D.

🔗 Ссылки
- Статья на arXiv: https://arxiv.org/abs/2506.08002
- Проект: https://glab-caltech.github.io/kyvo/
- GitHub: https://github.com/glab-caltech/kyvo
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍8



tgoop.com/machinelearning_interview/2196
Create:
Last Update:

⚡️ Kyvo — новая универсальная модель от Caltech

Kyvo — это трансформер, который умеет работать сразу с текстом, изображениями и 3D-сценами. Он синхронизирует всё это *токен за токеном*, что открывает новые возможности для мульти-модальных ИИ.

🔍 Что делает Kyvo
- Представляет 3D-сцену как список объектов с атрибутами: форма, размер, тип, поза, положение.
- Объединяет текст, изображения и 3D в одно общее представление.
- Может рендерить картинку по сцене, восстанавливать 3D по фото, отвечать на вопросы о сцене или менять её по инструкции.
- Использует специальные кодировки для более точного восстановления форм объектов.

🧪 На чём проверяли
- Датасеты: CLEVR, ObjaWorld, Objectron, ARKitScenes.
- Задачи: рендеринг, распознавание объектов, инструкции к сцене, ответы на вопросы.

Чем интересна:
- Универсальность: одна модель - много задач и форматов данных.
- Гибкость: одинаково хорошо работает и в генерации, и в понимании.
- Шаг к тому, чтобы ИИ начал воспринимать мир в трёх измерениях, а не только в 2D.

🔗 Ссылки
- Статья на arXiv: https://arxiv.org/abs/2506.08002
- Проект: https://glab-caltech.github.io/kyvo/
- GitHub: https://github.com/glab-caltech/kyvo

BY Machine learning Interview




Share with your friend now:
tgoop.com/machinelearning_interview/2196

View MORE
Open in Telegram


Telegram News

Date: |

While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. How to Create a Private or Public Channel on Telegram? Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up. In the next window, choose the type of your channel. If you want your channel to be public, you need to develop a link for it. In the screenshot below, it’s ”/catmarketing.” If your selected link is unavailable, you’ll need to suggest another option. How to Create a Private or Public Channel on Telegram?
from us


Telegram Machine learning Interview
FROM American