Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
ByteDance выпустила модель Wan2.1-14B, специализирующуюся на задаче *
video-as-prompt*, то есть использование видео или комбинации изображений и текста как входных данных для генерации нового видео. - Работает в режимах «видео → видео» или «изображения/текст → видео».
- 14 млрд параметров — высокая детализация, плавная динамика, реалистичные движения.
- Использует исходное видео как шаблон стиля и композиции.
⚠️ Что стоит учитывать
- Модель требует мощных GPU и большого объёма памяти.
- Качество результата зависит от сложности запроса и длины видео.
@ai_machinelearning_big_data
#AI #VideoGeneration #ByteDance #Wan2 #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
🎮 Погружение в мир AI-социума
Microverse — это песочница, где AI-герои взаимодействуют в открытом мире, развивая свои социальные связи. Проект включает демо-версию игры, созданной на Godot 4, и предлагает уникальный опыт общения с многофункциональными AI-персонажами.
🚀 Основные моменты:
- Песочница с AI-экосистемой для социальных взаимодействий
- Поддержка многопользовательских AI-диалогов
- Долговременная память для персонажей
- Автономное управление задачами и взаимодействиями
- Интеграция с различными AI-сервисами
📌 GitHub: https://github.com/KsanaDock/Microverse
#gdscript
Microverse — это песочница, где AI-герои взаимодействуют в открытом мире, развивая свои социальные связи. Проект включает демо-версию игры, созданной на Godot 4, и предлагает уникальный опыт общения с многофункциональными AI-персонажами.
🚀 Основные моменты:
- Песочница с AI-экосистемой для социальных взаимодействий
- Поддержка многопользовательских AI-диалогов
- Долговременная память для персонажей
- Автономное управление задачами и взаимодействиями
- Интеграция с различными AI-сервисами
📌 GitHub: https://github.com/KsanaDock/Microverse
#gdscript
❤3🔥1
Иногда полезно выйти за пределы привычных pet-проектов и Kaggle-соревнований — просто, чтобы напомнить себе, зачем ты этим вообще занимаешься.
Отбор заканчивается совсем скоро. Если ты чувствуешь, что уже перерос курсы и туториалы, — вот твой шанс проверить себя в реальном бою.
👉 yandex.ru/cup/2025
В Yandex Cup ты не соревнуешься ради бейджа или рейтинга. Здесь задачи максимально приближены к реальности: нужно балансировать между скоростью, качеством и интерпретируемостью решений.
Формат гибкий: сначала онлайн-этап, потом финал — офлайн, в Стамбуле. Призовой фонд — 12 млн рублей, но для многих главная мотивация — не деньги, а люди.
Сильные ML-инженеры из Яндекса и других компаний, открытые дискуссии, возможность показать себя и прокачаться рядом с теми, кто двигает индустрию вперёд.
Отбор заканчивается совсем скоро. Если ты чувствуешь, что уже перерос курсы и туториалы, — вот твой шанс проверить себя в реальном бою.
👉 yandex.ru/cup/2025
👍2👎2❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🧢CAP4D🧢!
Модель можно генерировать анимируемые 4D-аватары из любых изображений + управляющего видео.
🤩 Поддерживаются даже стилизованные фото!
👉 Код: github.com/felixtaubner/cap4d
🏠 Проект: felixtaubner.github.io/cap4d/
Модель можно генерировать анимируемые 4D-аватары из любых изображений + управляющего видео.
🤩 Поддерживаются даже стилизованные фото!
👉 Код: github.com/felixtaubner/cap4d
🏠 Проект: felixtaubner.github.io/cap4d/
❤4👍1👎1
AIJ Deep Dive – must-attend событие для профессионалов в AI!
Специальный очный трек международной конференции AI Journey для инженеров будущего — для тех, кто создаёт AI своими руками.
Будет два тематических дня:
Почему это событие нельзя пропустить?
Локация: офис Сбера, Кутузовский проспект, д. 32, к. 1 (Е)
Дата: 19–20 ноября 2025 года
Подробности и регистрация: https://aij.ru/deepdive
Приходи и стань частью сообщества, которое пишет будущее!
Специальный очный трек международной конференции AI Journey для инженеров будущего — для тех, кто создаёт AI своими руками.
Будет два тематических дня:
1️⃣ День Науки (19 ноября) — прорывные исследования, передовые R&D-разработки и глубокий технический разбор решений.
2️⃣ День Бизнеса (20 ноября) — реальные кейсы внедрения AI, практические результаты и оценка эффективности.
Почему это событие нельзя пропустить?
✔️ Сообщество тех, кто уже сегодня формирует технологические стандарты завтрашнего дня
✔️ Только реальные кейсы, инсайды и решения
✔️ Нетворкинг и возможность установить контакты с ключевыми игроками рынка и перспективными коллегами
✔️ Постерная сессия научных статей, в том числе уровня А/А*
✔️ Возможность увидеть изнутри, как рождаются прорывные технологии
Локация: офис Сбера, Кутузовский проспект, д. 32, к. 1 (Е)
Дата: 19–20 ноября 2025 года
Подробности и регистрация: https://aij.ru/deepdive
Приходи и стань частью сообщества, которое пишет будущее!
🤖 NanoChat теперь живёт на Modal!
Разработчик перенёс мод для NanoChat от Карпаты на платформу @modal - теперь он обучается на 8× H100 и разворачивается на 1× A10G.
💡 Всё открыто:
Исходники и инструкция — github.com/Echen1246/smarternano
Онлайн-демо space3--nanochat-serve-chat.modal.run
Отличный пример того, как LLM можно поднять на своих GPU - просто, гибко и без огромной инфраструктуры.
Разработчик перенёс мод для NanoChat от Карпаты на платформу @modal - теперь он обучается на 8× H100 и разворачивается на 1× A10G.
💡 Всё открыто:
Исходники и инструкция — github.com/Echen1246/smarternano
Онлайн-демо space3--nanochat-serve-chat.modal.run
Отличный пример того, как LLM можно поднять на своих GPU - просто, гибко и без огромной инфраструктуры.
👍2👎2
Компании всё чаще переносят ИИ-модели в облако
В России растет тренд на использование генеративных нейросетей в облачной инфраструктуре. Облака дают больше инструментов для интеграции ИИ, упрощают масштабирование и делают внедрение экономически выгодным.
Yandex AI Studio — пример этой тенденции: платформа объединяет более 20 моделей и позволяет запускать AI-агентов и RAG-сценарии без программирования. С начала 2025 года спрос на генеративные модели на платформе вырос в 5 раз, ежемесячно там тратят десятки миллиардов токенов — показатель общего роста доверия бизнеса к облачным AI-решениям. Что характерно – на первом месте по потреблению YandexGPT, но около 30% трафика уже занимает Qwen3-235b, которую используют для агентских сценариев.
🔗 Подробнее здесь: https://www.vedomosti.ru/technology/news/2025/10/27/1150016-godovaya-viruchka
#AI #GenerativeAI #Agents #RAG
В России растет тренд на использование генеративных нейросетей в облачной инфраструктуре. Облака дают больше инструментов для интеграции ИИ, упрощают масштабирование и делают внедрение экономически выгодным.
Yandex AI Studio — пример этой тенденции: платформа объединяет более 20 моделей и позволяет запускать AI-агентов и RAG-сценарии без программирования. С начала 2025 года спрос на генеративные модели на платформе вырос в 5 раз, ежемесячно там тратят десятки миллиардов токенов — показатель общего роста доверия бизнеса к облачным AI-решениям. Что характерно – на первом месте по потреблению YandexGPT, но около 30% трафика уже занимает Qwen3-235b, которую используют для агентских сценариев.
🔗 Подробнее здесь: https://www.vedomosti.ru/technology/news/2025/10/27/1150016-godovaya-viruchka
#AI #GenerativeAI #Agents #RAG
😁3❤2👍1
🚀 DeepSeek-OCR на Rust
Репозиторий представляет собой реализацию DeepSeek-OCR на Rust с быстрой командной строкой и совместимым с OpenAI HTTP-сервером. Он включает в себя модели для обработки изображений и текстов, позволяя создавать локальные решения для понимания документов.
🚀 Основные моменты:
- Быстрая CLI и сервер для OCR задач.
- Поддержка Apple Metal и экспериментальная CUDA.
- Оптимизирован для работы на Apple Silicon.
- Совместимость с клиентами OpenAI.
- Безопасная память и низкие накладные расходы.
📌 GitHub: https://github.com/TimmyOVO/deepseek-ocr.rs
#rust
Репозиторий представляет собой реализацию DeepSeek-OCR на Rust с быстрой командной строкой и совместимым с OpenAI HTTP-сервером. Он включает в себя модели для обработки изображений и текстов, позволяя создавать локальные решения для понимания документов.
🚀 Основные моменты:
- Быстрая CLI и сервер для OCR задач.
- Поддержка Apple Metal и экспериментальная CUDA.
- Оптимизирован для работы на Apple Silicon.
- Совместимость с клиентами OpenAI.
- Безопасная память и низкие накладные расходы.
📌 GitHub: https://github.com/TimmyOVO/deepseek-ocr.rs
#rust
🔥5👍1
Forwarded from Machine learning Interview
В публикации на блоге vLLM описан новый режим работы - Sleep Mode - который позволяет резко ускорить переключение между языковыми моделями. Традиционные методы требуют либо держать обе модели загруженными (что удваивает нагрузку на GPU), либо перезагружать их по очереди с паузой в 30–100 секунд. Sleep Mode предлагает третий вариант: модели «усыпляют» и «просыпают» за считанные секунды, сохраняя уже инициализированное состояние.
Доступны два уровня сна: уровень 1 - веса сбрасываются на RAM, быстрый подъём, но требуется много оперативной памяти; уровень 2 - веса выгружаются полностью, минимальное использование RAM, подъём чуть медленнее. Оба уровня дали прирост производительности: переключения моделей стали от 18 до 200 раз быстрее, а время инференса после пробуждения - на 61–88 % выше, поскольку сохраняется память процессов, CUDA-графы и JIT-компиляция.
Sleep Mode идеально подходит для сценариев с частым использованием разных моделей и делает практичным мульти-модельное обслуживание даже на GPU среднего уровня - от A4000 до A100.
Блог: https://blog.vllm.ai/2025/10/26/sleep-mode.html
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3🤔2
Эволюция инференса LLM: от Hugging Face к vLLM
Открытый вебинар от OTUS — первый шаг к продвинутому владению языковыми моделями.
Приходите на онлайн-встречу, где мы разберем ключевую, но часто упускаемую из виду тему — эволюцию инструментов инференса. Эти знания отличают специалиста, который просто использует модели, от того, кто может грамотно интегрировать их в продакшн, выбирая оптимальные решения для скорости, памяти и стоимости.
Что вы получите за час?
- системное понимание экосистемы инструментов для инференса;
- четкие критерии для выбора фреймворка под вашу задачу;
- практическое понимание, что дает переход на vLLM в реальных проектах (throughput, latency, экономия GPU-памяти).
Для кого:
• Практикующих Data Scientists
• Инженеров, работающих с текстовыми данными
Этот вебинар — введение в философию курса «NLP.Advanced», где вы с нуля осваиваете самые современные и эффективные подходы к работе с LLM.
Подробности и регистрация: https://otus.pw/FADt/?erid=2W5zFHkpVcU
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Открытый вебинар от OTUS — первый шаг к продвинутому владению языковыми моделями.
Приходите на онлайн-встречу, где мы разберем ключевую, но часто упускаемую из виду тему — эволюцию инструментов инференса. Эти знания отличают специалиста, который просто использует модели, от того, кто может грамотно интегрировать их в продакшн, выбирая оптимальные решения для скорости, памяти и стоимости.
Что вы получите за час?
- системное понимание экосистемы инструментов для инференса;
- четкие критерии для выбора фреймворка под вашу задачу;
- практическое понимание, что дает переход на vLLM в реальных проектах (throughput, latency, экономия GPU-памяти).
Для кого:
• Практикующих Data Scientists
• Инженеров, работающих с текстовыми данными
Этот вебинар — введение в философию курса «NLP.Advanced», где вы с нуля осваиваете самые современные и эффективные подходы к работе с LLM.
Подробности и регистрация: https://otus.pw/FADt/?erid=2W5zFHkpVcU
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
❤2
🏛️ США строят ИИ-суперкомпьютеры нового поколения для открытой науки
На конференции NVIDIA GTC DC 2025 представили масштабный проект: Argonne National Laboratory получит два суперкомпьютера на базе архитектуры Blackwell — Solstice и Equinox.
🔹 Solstice - главный вычислительный центр с 100 000 GPU NVIDIA Blackwell,
🔹 Equinox - вспомогательная система с 10 000 GPU, запуск ожидается в первой половине 2026 года.
Вместе они обеспечат до 2 200 экзафлопс производительности для ИИ-задач в области материаловедения, климата и биологии.
Это будет флагманская инфраструктура Министерства энергетики США, доступная для публичных исследователей.
💡 Обучение моделей будет идти через Megatron-Core — библиотеку NVIDIA для распределения моделей и данных между тысячами GPU с высокой стабильностью и загрузкой.
Инференс обеспечит TensorRT, компилирующий модели в оптимизированные ядра для минимальной задержки и высокой пропускной способности.
Особенность проекта - прямая интеграция с научными установками, вроде Advanced Photon Source: модели смогут анализировать потоки данных в реальном времени и запускать эксперименты без задержек на передачу информации.
🧠 Итог: США создают открытую платформу для науки, где агентные ИИ-модели будут помогать исследователям открывать материалы, лекарства и климатические решения нового поколения.
На конференции NVIDIA GTC DC 2025 представили масштабный проект: Argonne National Laboratory получит два суперкомпьютера на базе архитектуры Blackwell — Solstice и Equinox.
🔹 Solstice - главный вычислительный центр с 100 000 GPU NVIDIA Blackwell,
🔹 Equinox - вспомогательная система с 10 000 GPU, запуск ожидается в первой половине 2026 года.
Вместе они обеспечат до 2 200 экзафлопс производительности для ИИ-задач в области материаловедения, климата и биологии.
Это будет флагманская инфраструктура Министерства энергетики США, доступная для публичных исследователей.
💡 Обучение моделей будет идти через Megatron-Core — библиотеку NVIDIA для распределения моделей и данных между тысячами GPU с высокой стабильностью и загрузкой.
Инференс обеспечит TensorRT, компилирующий модели в оптимизированные ядра для минимальной задержки и высокой пропускной способности.
Особенность проекта - прямая интеграция с научными установками, вроде Advanced Photon Source: модели смогут анализировать потоки данных в реальном времени и запускать эксперименты без задержек на передачу информации.
🧠 Итог: США создают открытую платформу для науки, где агентные ИИ-модели будут помогать исследователям открывать материалы, лекарства и климатические решения нового поколения.
❤7🔥2🥰2
ВКонтакте запустил формат шопсов - публикаций с карточками товаров или ссылками на быструю покупку прямо из соцсети. Теперь с помощью LLM и визуальных моделей (VLM) платформа умеет автоматически распознавать не только товарные карточки или прямые ссылки, но и нативные обзоры или распаковки от авторов, включая их в shoppable-разметку.
Посмотрите, как инженеры AI VK внедряют это под капотом и почему это важный шаг к умному e-commerce.
https://www.tgoop.com/aihubvk/332
Посмотрите, как инженеры AI VK внедряют это под капотом и почему это важный шаг к умному e-commerce.
https://www.tgoop.com/aihubvk/332
Telegram
AI VK Hub
🔹У ВКонтакте появился новый формат — шопсы. Это публикации авторов с товарами, по которым можно быстро совершить покупку. Подобный контент появлялся в ленте и раньше, но с помощью LLM, VLM и правильной разметки теперь можно определить нативные обзоры или…
👎2❤1😁1
🤖 deepagents 0.2 — открытая мульти-модельная среда для агентов
Вышло обновление с ключевым новшеством — абстракцией backend, которая позволяет заменить файловую систему на любую другую среду:
локальную, удалённую VM, базу данных и даже кастомный источник.
Теперь deepagents становится гибким инструментом для экспериментов с агентами и интеграций на уровне инфраструктуры.
Подробнее в блоге: blog.langchain.com/doubling-down-on-deepagents
Вышло обновление с ключевым новшеством — абстракцией backend, которая позволяет заменить файловую систему на любую другую среду:
локальную, удалённую VM, базу данных и даже кастомный источник.
Теперь deepagents становится гибким инструментом для экспериментов с агентами и интеграций на уровне инфраструктуры.
Подробнее в блоге: blog.langchain.com/doubling-down-on-deepagents
LangChain Blog
Doubling down on DeepAgents
Two months ago we wrote about Deep Agents - a term we coined for agents that are able to do complex, open ended tasks over longer time horizons. We hypothesized that there were four key elements to those agents: a planning tool, access to a filesystem, subagents…
❤2🔥1
⚡ FlashVSR: Реальное время для видео-суперразрешения
FlashVSR — это инновационная система, использующая диффузионные модели для достижения суперразрешения видео в реальном времени. Она обеспечивает высокую эффективность и масштабируемость, работая на скорости около 17 FPS для видео 768 × 1408 на одном GPU A100. Проект включает новый набор данных VSR-120K для обучения и демонстрирует выдающиеся результаты, значительно опережая предыдущие модели.
🚀Основные моменты:
- Первая диффузионная модель для потокового видео-суперразрешения.
- Эффективная трехступенчатая дистилляция для быстрого обучения.
- Локально-ограниченное разреженное внимание для снижения вычислительных затрат.
- Поддержка ультра-высоких разрешений с до 12-кратным ускорением.
📌 GitHub: https://github.com/OpenImagingLab/FlashVSR
#python
FlashVSR — это инновационная система, использующая диффузионные модели для достижения суперразрешения видео в реальном времени. Она обеспечивает высокую эффективность и масштабируемость, работая на скорости около 17 FPS для видео 768 × 1408 на одном GPU A100. Проект включает новый набор данных VSR-120K для обучения и демонстрирует выдающиеся результаты, значительно опережая предыдущие модели.
🚀Основные моменты:
- Первая диффузионная модель для потокового видео-суперразрешения.
- Эффективная трехступенчатая дистилляция для быстрого обучения.
- Локально-ограниченное разреженное внимание для снижения вычислительных затрат.
- Поддержка ультра-высоких разрешений с до 12-кратным ускорением.
📌 GitHub: https://github.com/OpenImagingLab/FlashVSR
#python
GitHub
GitHub - OpenImagingLab/FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution — An efficient one-step diffusion…
Towards Real-Time Diffusion-Based Streaming Video Super-Resolution — An efficient one-step diffusion framework for streaming VSR with locality-constrained sparse attention and a tiny conditional de...
Media is too big
VIEW IN TELEGRAM
МТС True Tech Champ — зрелищный шоу-чемпионат с ИИ-спецэффектами!
21 ноября МТС объединяет ИТ-конференцию и ИТ-чемпионат на одной площадке. Тебя ждет настоящий фестиваль технологий. Более 250 ИТ-талантов со всей России сразятся в лайв-кодинге и программировании роботов на скоростное прохождение лабиринтов со спецэффектами.
Между наблюдением за заездами и поединками ты сможешь:
▫️ послушать конференцию с международными спикерами в области ИИ;
▫️ поучаствовать в воркшопах и юмористических батлах в ИТ-качалке;
▫️ испытать себя в кодерских челленджах и других айтивностях;
▫️ перезагрузить карьеру в HR-Хабе вместе с командой МТС.
День завершится ярким афтепати со звездными хедлайнерами.
👉🏻 Участие бесплатно, количество мест ограничено. Успей зарегистрироваться
21 ноября МТС объединяет ИТ-конференцию и ИТ-чемпионат на одной площадке. Тебя ждет настоящий фестиваль технологий. Более 250 ИТ-талантов со всей России сразятся в лайв-кодинге и программировании роботов на скоростное прохождение лабиринтов со спецэффектами.
Между наблюдением за заездами и поединками ты сможешь:
▫️ послушать конференцию с международными спикерами в области ИИ;
▫️ поучаствовать в воркшопах и юмористических батлах в ИТ-качалке;
▫️ испытать себя в кодерских челленджах и других айтивностях;
▫️ перезагрузить карьеру в HR-Хабе вместе с командой МТС.
День завершится ярким афтепати со звездными хедлайнерами.
👉🏻 Участие бесплатно, количество мест ограничено. Успей зарегистрироваться
Mental Models — тогда и сейчас 🧠
В 2007-м нейросети только учились подражать мозгу.
В 2025-м — учёные уже *буквально* создают его цифрового двойника.
1️⃣ E11 Bio сегодня баркодирует *каждую клетку мозга*, определяя тип нейрона и его форму по экспрессируемым белкам.
С помощью expansion microscopy — они “раздувают” мозговые ткани изнутри, чтобы легче проследить связи под микроскопом.
👉 Цель — создать точную 3D-карту мозга, где видно не только нейроны, но и химические градиенты, каннабиноиды, вирусоподобные частицы и внеклеточный матрикс, который становится более гибким под действием психоделиков (работа Gul Dolen).
Вопрос остаётся открытым: *сколько сложности нужно, чтобы реально смоделировать состояние мозга?*
2️⃣ 2007 год.
Тогда энтузиасты строили нейромодели на первых NVIDIA GPU. Один из них создал самодельный суперкомпьютер за $2000, чтобы моделировать рост дендритов и формирование связей в коре мозга.
Каждая точка — сотни потенциальных соединений, каждая ветвь — вычислительный узел.
3️⃣ На старых схемах — RC-цепочки, дифференциальные уравнения и дендрит как *коаксиальный кабель*:
ионы внутри, липидная оболочка снаружи, мембранная ёмкость, сопротивление, ионные каналы, создающие нелинейную динамику.
Сигнал передаётся не потоком электронов, а *каскадом открывающихся каналов*, как пальцы на длинной флейте.
🧩 Вывод: дендрит — это не просто «провод», а самостоятельный вычислительный элемент.
И даже спустя почти 20 лет, мозг всё ещё остаётся самым загадочным суперкомпьютером из всех.
#neuroscience #AI #mentalmodels #brainmapping #E11Bio #LLM
В 2007-м нейросети только учились подражать мозгу.
В 2025-м — учёные уже *буквально* создают его цифрового двойника.
1️⃣ E11 Bio сегодня баркодирует *каждую клетку мозга*, определяя тип нейрона и его форму по экспрессируемым белкам.
С помощью expansion microscopy — они “раздувают” мозговые ткани изнутри, чтобы легче проследить связи под микроскопом.
👉 Цель — создать точную 3D-карту мозга, где видно не только нейроны, но и химические градиенты, каннабиноиды, вирусоподобные частицы и внеклеточный матрикс, который становится более гибким под действием психоделиков (работа Gul Dolen).
Вопрос остаётся открытым: *сколько сложности нужно, чтобы реально смоделировать состояние мозга?*
2️⃣ 2007 год.
Тогда энтузиасты строили нейромодели на первых NVIDIA GPU. Один из них создал самодельный суперкомпьютер за $2000, чтобы моделировать рост дендритов и формирование связей в коре мозга.
Каждая точка — сотни потенциальных соединений, каждая ветвь — вычислительный узел.
3️⃣ На старых схемах — RC-цепочки, дифференциальные уравнения и дендрит как *коаксиальный кабель*:
ионы внутри, липидная оболочка снаружи, мембранная ёмкость, сопротивление, ионные каналы, создающие нелинейную динамику.
Сигнал передаётся не потоком электронов, а *каскадом открывающихся каналов*, как пальцы на длинной флейте.
🧩 Вывод: дендрит — это не просто «провод», а самостоятельный вычислительный элемент.
И даже спустя почти 20 лет, мозг всё ещё остаётся самым загадочным суперкомпьютером из всех.
#neuroscience #AI #mentalmodels #brainmapping #E11Bio #LLM
❤2👍2
🤖 WorldVLA - объединение VLA и World Model в единое автогенеративное ядро
Alibaba представила WorldVLA, новый шаг к созданию *авторегрессионной модели мира действий*
где одна архитектура одновременно предсказывает следующие кадры и действия агента.
🧠 Ключевая идея
WorldVLA объединяет Vision-Language-Action (VLA) и World Model в одном трансформере:
- Вход: *(image + language + action)*
- Выход: *(image + language + action)*
То есть модель не только «понимает» физику мира, но и «учится действовать» в нём.
⚙️ Как это работает
- Архитектура: единый Transformer, обучаемый одновременно на данных action-моделей и world-моделей.
- Лосс: комбинированная функция, объединяющая предсказание действий и состояния мира.
- Трюк с attention mask: маскируются предыдущие действия при генерации текущих —
этот приём значительно улучшает качество «action-chunk» генерации.
📊 Результаты
Тестировалось в симуляции (LIBERO benchmark):
WorldVLA превзошла отдельно обученные action-модели и world-модели.
💬 По сути, Alibaba делает следующий шаг к AGI-агентам с реальным пониманием физики,
где одно ядро может предсказывать, воспринимать и действовать — как единая система.
📄 Paper: https://arxiv.org/abs/2506.21539
💻 Code: https://github.com/alibaba-damo-academy/WorldVLA
#AI #WorldModel #VLA #DeepLearning #Alibaba #Transformers
Alibaba представила WorldVLA, новый шаг к созданию *авторегрессионной модели мира действий*
где одна архитектура одновременно предсказывает следующие кадры и действия агента.
🧠 Ключевая идея
WorldVLA объединяет Vision-Language-Action (VLA) и World Model в одном трансформере:
- Вход: *(image + language + action)*
- Выход: *(image + language + action)*
То есть модель не только «понимает» физику мира, но и «учится действовать» в нём.
⚙️ Как это работает
- Архитектура: единый Transformer, обучаемый одновременно на данных action-моделей и world-моделей.
- Лосс: комбинированная функция, объединяющая предсказание действий и состояния мира.
- Трюк с attention mask: маскируются предыдущие действия при генерации текущих —
этот приём значительно улучшает качество «action-chunk» генерации.
📊 Результаты
Тестировалось в симуляции (LIBERO benchmark):
WorldVLA превзошла отдельно обученные action-модели и world-модели.
💬 По сути, Alibaba делает следующий шаг к AGI-агентам с реальным пониманием физики,
где одно ядро может предсказывать, воспринимать и действовать — как единая система.
📄 Paper: https://arxiv.org/abs/2506.21539
💻 Code: https://github.com/alibaba-damo-academy/WorldVLA
#AI #WorldModel #VLA #DeepLearning #Alibaba #Transformers
❤3
