Forwarded from Machinelearning
Вслед за релизом Hunyuan Portrait, Tencent выпустила Hunyuan Video Avatar - систему на базе MM-DiT для генерации динамичных видео из изображения с одним или несколькими персонажами, синхронизированных с аудио.
Объединить такие возможности было непростой задачей, это стало возможным благодаря использованию ключевых для Hunyuan Video Avatar методов:
По сравнительных тестах с Sonic, EchoMimic, EchoMimicV2 и Hallo-3 на датасетах для портретной анимации (HDTF, CelebV-HQ и свой приватный сет) Hunyuan Video Avatar показал лучшие результаты: 3,99 в метриках качества видео (IQA), 2,54 по эстетике (ASE), 5,30 в синхронизации аудио и видео (Sync-C), 38.01 в точности воспроизведения видео (FID) и 358.71 по искажениям (FVD).
При тестировании полнокадровой анимации на собственном датасете HunyuanVideo-Avatar показал лучшие результаты по IQA (4.66), ASE (3.03) и Sync-C (5.56) в сравнении с Hallo3, FantasyTalking и OmniHuman-1.
⚠️ Модель прожорливая: минимум 24 ГБ VRAM для 704x768, а для плавного 4K рекомендуют GPU на 96 ГБ.
Зато входные изображения берет любые: фотореалистичные портреты, 3D-модели, аниме-персонажи — хоть лису в костюме. Разрешение тоже гибкое: от крупных планов до полноростовых.
@ai_machinelearning_big_data
#AI #ML #HunyuanAvatar
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12🔥6👍2⚡1
🤖 best-of-robot-simulators: крупнейший рейтинг симуляторов для робототехники
Проект — это автоматизированная и регулярно обновляемая подборка лучших симуляторов для робототехники на GitHub. Это must-have для всех, кто работает с моделированием и тестированием роботов в виртуальной среде.
🧩 Что внутри:
● 120+ симуляторов в 10 категориях
● Более 300 000 звёзд в сумме
● Автоматическая сортировка по GitHub-метрикам: звёзды, форки, активность
● Обновляется каждую среду
📂 Категории симуляторов:
• Generic Robotics
• Aerial (дроны)
• Maritime (морская робототехника)
• Space
• Domain Specific
• Game engines
• AI-training
• Rendering
• Physics engines
• 2D Simulators
🔍 Примеры известных фреймворков:
• Gazebo, Webots, Isaac Sim, MuJoCo, AirSim, PyBullet
🛠 Полезно для:
• Разработчиков и исследователей
• Студентов робототехники
• Команд, выбирающих движок под проект
• Энтузиастов AI/симуляции
📎 Лицензия: CC-BY-SA 4.0
🌐 Репозиторий
#robotics #AI #simulation #opensource #gazebo #webots #isaacsim #mujoco
Проект — это автоматизированная и регулярно обновляемая подборка лучших симуляторов для робототехники на GitHub. Это must-have для всех, кто работает с моделированием и тестированием роботов в виртуальной среде.
🧩 Что внутри:
● 120+ симуляторов в 10 категориях
● Более 300 000 звёзд в сумме
● Автоматическая сортировка по GitHub-метрикам: звёзды, форки, активность
● Обновляется каждую среду
📂 Категории симуляторов:
• Generic Robotics
• Aerial (дроны)
• Maritime (морская робототехника)
• Space
• Domain Specific
• Game engines
• AI-training
• Rendering
• Physics engines
• 2D Simulators
🔍 Примеры известных фреймворков:
• Gazebo, Webots, Isaac Sim, MuJoCo, AirSim, PyBullet
🛠 Полезно для:
• Разработчиков и исследователей
• Студентов робототехники
• Команд, выбирающих движок под проект
• Энтузиастов AI/симуляции
📎 Лицензия: CC-BY-SA 4.0
🌐 Репозиторий
#robotics #AI #simulation #opensource #gazebo #webots #isaacsim #mujoco
❤8🔥6👍3
📣 Получите статус Yandex DataLens Certified Analyst
⠀
Сертификация DataLens Analyst от Yandex Cloud — это возможность структурировать знания и подтвердить свой профессиональный уровень в анализе и визуализации данных.
⠀
Сертифицированные специалисты ценятся на рынке выше, а подготовка к экзамену помогает систематизировать навыки: от создания датасетов до проектирования дашбордов.
⠀
Сейчас пройти сертификацию можно с 50% скидкой — до конца августа стоимость составит 2 500 ₽ вместо 5 000 ₽.
⠀
На сайте есть бесплатный курс и примеры экзаменационных заданий.
⠀
📍Подробности и регистрация — по ссылке.
⠀
Сертификация DataLens Analyst от Yandex Cloud — это возможность структурировать знания и подтвердить свой профессиональный уровень в анализе и визуализации данных.
⠀
Сертифицированные специалисты ценятся на рынке выше, а подготовка к экзамену помогает систематизировать навыки: от создания датасетов до проектирования дашбордов.
⠀
Сейчас пройти сертификацию можно с 50% скидкой — до конца августа стоимость составит 2 500 ₽ вместо 5 000 ₽.
⠀
На сайте есть бесплатный курс и примеры экзаменационных заданий.
⠀
📍Подробности и регистрация — по ссылке.
🥴6❤2😁2👍1
🚀 Представлен Apache Spark 4.0 — крупнейший релиз с момента запуска Spark 2.0
Databricks анонсировали Spark 4.0 с множеством фундаментальных улучшений производительности и архитектуры.
Новый релиз фокусируется на ускорении обработки, поддержке GenAI-нагрузок и расширенной масштабируемости.
🔥 Что нового:
• 💡 Project Tungsten++, Catalyst++ — переработка движка исполнения и оптимизации запросов
• 🧠 Поддержка генеративных AI-запросов — Spark теперь эффективнее работает с LLM-нагрузками
• ⚙️ Новый Execution Engine — более 2× ускорение в среднем, до 10× в некоторых кейсах
• 📦 Модульная архитектура — теперь ядро Spark отделено от MLlib, GraphX и др.
• 🌐 Поддержка нового Shuffle-движка и улучшенное распределение по кластерам
• 🧪 Обратная несовместимость — Spark 4.0 требует миграции, особенно для UDF и кастомных оптимизаций
📌 Подробности и тесты:
https://www.databricks.com/blog/introducing-apache-spark-40
@data_analysis_ml
Databricks анонсировали Spark 4.0 с множеством фундаментальных улучшений производительности и архитектуры.
Новый релиз фокусируется на ускорении обработки, поддержке GenAI-нагрузок и расширенной масштабируемости.
🔥 Что нового:
• 💡 Project Tungsten++, Catalyst++ — переработка движка исполнения и оптимизации запросов
• 🧠 Поддержка генеративных AI-запросов — Spark теперь эффективнее работает с LLM-нагрузками
• ⚙️ Новый Execution Engine — более 2× ускорение в среднем, до 10× в некоторых кейсах
• 📦 Модульная архитектура — теперь ядро Spark отделено от MLlib, GraphX и др.
• 🌐 Поддержка нового Shuffle-движка и улучшенное распределение по кластерам
• 🧪 Обратная несовместимость — Spark 4.0 требует миграции, особенно для UDF и кастомных оптимизаций
📌 Подробности и тесты:
https://www.databricks.com/blog/introducing-apache-spark-40
@data_analysis_ml
❤8🔥7👍4
🔁 BERT перезагружается — революция в обработке языка
Когда-то BERT (Bidirectional Encoder Representations from Transformers) стал поворотной точкой в NLP. Это была первая модель, которая обучалась трансформеру двунаправленно — она одновременно учитывала контекст и слева, и справа от каждого слова, чтобы понимать язык глубже, чем когда-либо.
🧠 Что изменил BERT:
• Принёс в трансформеры стратегию «предобучение → дообучение»
• Учил модели понимать текст без ручной разметки
• Доказал, что язык можно моделировать через простые, но мощные задачи
🛠 Как устроено предобучение BERT:
🔹 MLM (Masked Language Model)
Модель случайно скрывает 15% слов в предложении и учится угадывать их, основываясь на окружающем контексте.
Примерно как человек, который понимает фразу, даже если не видит пару слов.
🔹 NSP (Next Sentence Prediction)
BERT также обучался распознавать, действительно ли второе предложение логически следует за первым.
Но…
⚡ Современные версии (NeoBERT, ModernBERT) отказываются от NSP — вместо него они используют более быстрые и эффективные подходы, чтобы добиться лучшей производительности.
🔍 Хотите узнать больше о BERT, его развитии и новой модели ConstBERT для поисковых задач?
👉 Читайте разбор здесь: https://turingpost.com/p/bert
Когда-то BERT (Bidirectional Encoder Representations from Transformers) стал поворотной точкой в NLP. Это была первая модель, которая обучалась трансформеру двунаправленно — она одновременно учитывала контекст и слева, и справа от каждого слова, чтобы понимать язык глубже, чем когда-либо.
🧠 Что изменил BERT:
• Принёс в трансформеры стратегию «предобучение → дообучение»
• Учил модели понимать текст без ручной разметки
• Доказал, что язык можно моделировать через простые, но мощные задачи
🛠 Как устроено предобучение BERT:
🔹 MLM (Masked Language Model)
Модель случайно скрывает 15% слов в предложении и учится угадывать их, основываясь на окружающем контексте.
Примерно как человек, который понимает фразу, даже если не видит пару слов.
🔹 NSP (Next Sentence Prediction)
BERT также обучался распознавать, действительно ли второе предложение логически следует за первым.
Но…
⚡ Современные версии (NeoBERT, ModernBERT) отказываются от NSP — вместо него они используют более быстрые и эффективные подходы, чтобы добиться лучшей производительности.
🔍 Хотите узнать больше о BERT, его развитии и новой модели ConstBERT для поисковых задач?
👉 Читайте разбор здесь: https://turingpost.com/p/bert
❤14👍6🔥5
🧠 Sakana AI представили Darwin Gödel Machine — саморазвивающийся ИИ, который переписывает собственный код
https://sakana.ai/dgm
Darwin Gödel Machine (DGM) — это новый тип интеллектуального агента, способного модифицировать и улучшать самого себя. В отличие от традиционных моделей, чьи возможности фиксированы после запуска, DGM задуман как эволюционирующий ИИ.
📌 Ключевая идея: поддержка «линейки вариантов» — разных версий агента, которые постепенно эволюционируют и исследуют пространство решений. Это позволяет системе улучшаться открыто и без ограничений, как это происходит в биологической эволюции.
📊 Результаты:
• На SWE-bench точность выросла с 20.0% до 50.0%
• На Polyglot — с 14.2% до 30.7%, заметно превзойдя hand-crafted baseline-агенты
🌱 Darwin Gödel Machine предлагает подход, при котором ИИ не просто обучается, а становится способным к собственному развитию и самокоррекции.
📄 Технический отчёт:
https://arxiv.org/abs/2505.22954
@data_analysis_ml
https://sakana.ai/dgm
Darwin Gödel Machine (DGM) — это новый тип интеллектуального агента, способного модифицировать и улучшать самого себя. В отличие от традиционных моделей, чьи возможности фиксированы после запуска, DGM задуман как эволюционирующий ИИ.
📌 Ключевая идея: поддержка «линейки вариантов» — разных версий агента, которые постепенно эволюционируют и исследуют пространство решений. Это позволяет системе улучшаться открыто и без ограничений, как это происходит в биологической эволюции.
📊 Результаты:
• На SWE-bench точность выросла с 20.0% до 50.0%
• На Polyglot — с 14.2% до 30.7%, заметно превзойдя hand-crafted baseline-агенты
🌱 Darwin Gödel Machine предлагает подход, при котором ИИ не просто обучается, а становится способным к собственному развитию и самокоррекции.
📄 Технический отчёт:
https://arxiv.org/abs/2505.22954
@data_analysis_ml
❤24😱13👍5🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Resemble AI открыли исходный код Chatterbox — передовой модели клонирования голоса нового поколения.
Chatterbox объединяет синтез речи (TTS) и voice conversion, позволяя не только генерировать, но и трансформировать голос.
📊 В слепом тестировании 63,75% слушателей выбрали Chatterbox вместо ElevenLabs.
⚡️ Модель распространяется бесплатно и с открытым исходным кодом под MIT-лицензией.
💻 Установка:
pip install chatterbox-tts
🔗 Полезные ссылки:
Демо-примеры: https://resemble-ai.github.io/chatterbox_demopage/
GitHub: https://github.com/resemble-ai/chatterbox
Hugging Face: https://huggingface.co/spaces/ResembleAI/Chatterbox
Статистика: https://podonos.com/resembleai/chatterbox
Chatterbox — альтернатива, которая звучит лучше, чем коммерческие аналоги.
@data_analysis_ml
Chatterbox объединяет синтез речи (TTS) и voice conversion, позволяя не только генерировать, но и трансформировать голос.
📊 В слепом тестировании 63,75% слушателей выбрали Chatterbox вместо ElevenLabs.
⚡️ Модель распространяется бесплатно и с открытым исходным кодом под MIT-лицензией.
💻 Установка:
pip install chatterbox-tts
🔗 Полезные ссылки:
Демо-примеры: https://resemble-ai.github.io/chatterbox_demopage/
GitHub: https://github.com/resemble-ai/chatterbox
Hugging Face: https://huggingface.co/spaces/ResembleAI/Chatterbox
Статистика: https://podonos.com/resembleai/chatterbox
Chatterbox — альтернатива, которая звучит лучше, чем коммерческие аналоги.
@data_analysis_ml
🔥12❤9👍3
🧰 MCP Tools — универсальный CLI-инструмент для работы с MCP-серверами
Это настоящий швейцарский нож для взаимодействия с серверами, поддерживающими Model Context Protocol.
🔧 Возможности MCP Tools:
• 🔍 Автоматически находит и вызывает инструменты на MCP-серверах
• 📦 Получает доступ к ресурсам и использует их прямо из терминала
• 🧪 Создаёт мок-серверы для тестирования клиентских приложений
• 🧩 Проксирует MCP-запросы в shell-скрипты — легко расширяется
• 🖥 Открывает интерактивную оболочку для изучения MCP-серверов
• 🚀 Генерирует шаблоны новых проектов с поддержкой TypeScript
• 🧾 Поддерживает множество форматов вывода: JSON, таблицы, читабельный текст
• 🔐 Управляет доступом к отдельным инструментам и ресурсам
• 🌐 Работает с любыми транспортами: HTTP, stdio и другими
📎 MCP Tools объединяет мощь, гибкость и удобство в одном инструменте. Идеально подходит для разработчиков, работающих с LLM-инфраструктурой и AI-интерфейсами.
🖥 Github
@data_analysis_ml
Это настоящий швейцарский нож для взаимодействия с серверами, поддерживающими Model Context Protocol.
🔧 Возможности MCP Tools:
• 🔍 Автоматически находит и вызывает инструменты на MCP-серверах
• 📦 Получает доступ к ресурсам и использует их прямо из терминала
• 🧪 Создаёт мок-серверы для тестирования клиентских приложений
• 🧩 Проксирует MCP-запросы в shell-скрипты — легко расширяется
• 🖥 Открывает интерактивную оболочку для изучения MCP-серверов
• 🚀 Генерирует шаблоны новых проектов с поддержкой TypeScript
• 🧾 Поддерживает множество форматов вывода: JSON, таблицы, читабельный текст
• 🔐 Управляет доступом к отдельным инструментам и ресурсам
• 🌐 Работает с любыми транспортами: HTTP, stdio и другими
📎 MCP Tools объединяет мощь, гибкость и удобство в одном инструменте. Идеально подходит для разработчиков, работающих с LLM-инфраструктурой и AI-интерфейсами.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍5🥱3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🏸 Робот, который играет в бадминтон — и делает это всерьёз
Учёные научили четвероногого робота играть в бадминтон. Не просто двигаться — а видеть волан, рассчитывать траекторию, подходить к мячу и точно отбивать его. Всё это в реальном времени, в движении, на настоящей площадке.
🔬 Как это работает:
- 🤖 Reinforcement Learning — робот учится на собственных ошибках
- 👁 Компьютерное зрение — отслеживание волана даже с шумами, как в реальных камерах
- 🧠 Модель предсказания траектории — чтобы "читать" мяч как опытный игрок
- 🦿 Координация движения ног и руки — не падать и успевать отбивать
💥 Что получилось:
Робот реально может играть против человека. Он не просто двигается — он принимает решения, адаптируется и бьёт по мячу в прыжке.
Это не анимация. Это реальный робот. И он уже работает.
@data_analysis_ml
Учёные научили четвероногого робота играть в бадминтон. Не просто двигаться — а видеть волан, рассчитывать траекторию, подходить к мячу и точно отбивать его. Всё это в реальном времени, в движении, на настоящей площадке.
🔬 Как это работает:
- 🤖 Reinforcement Learning — робот учится на собственных ошибках
- 👁 Компьютерное зрение — отслеживание волана даже с шумами, как в реальных камерах
- 🧠 Модель предсказания траектории — чтобы "читать" мяч как опытный игрок
- 🦿 Координация движения ног и руки — не падать и успевать отбивать
💥 Что получилось:
Робот реально может играть против человека. Он не просто двигается — он принимает решения, адаптируется и бьёт по мячу в прыжке.
Это не анимация. Это реальный робот. И он уже работает.
@data_analysis_ml
👍18❤14🔥7
MCP (Model Context Protocol) меняет то, как ИИ-модели и агенты взаимодействуют с инструментами.
1. Agentset MCP
🔗 https://github.com/agentset-ai/mcp-server
Быстрое создание интеллектуальных приложений на основе документов (RAG) с open-source платформой Agentset.
2. GitHub MCP Server
🔗 https://github.com/github/github-mcp-server
Интеграция с API GitHub — можно строить ИИ-инструменты, работающие с экосистемой GitHub.
3. arXiv MCP
🔗 https://github.com/andybrandt/mcp-simple-arxiv
Работа с научными статьями arXiv: поиск, метаданные, аннотации, ссылки — всё через MCP.
4. MCP Run Python
🔗 https://github.com/pydantic/pydantic-ai/tree/main/mcp-run-python
Запуск Python-кода в песочнице через Pyodide (Deno). Полная изоляция от ОС.
5. Safe Local Python Executor
🔗 https://github.com/maxim-saplin/mcp_safe_local_python_executor
Безопасный локальный запуск Python-кода, сгенерированного LLM, через LocalPythonExecutor (от smolagents).
6. Cursor MCP Installer
🔗 https://github.com/matthewdcage/cursor-mcp-installer
Автоматическое добавление MCP-серверов в редактор Cursor — удобно для разработчиков.
7. Basic Memory
🔗 https://memory.basicmachines.co/docs/introduction
Система управления знаниями: создаёт устойчивый семантический граф из диалогов ИИ-агентов.
8. Filesystem MCP Server
🔗 https://github.com/modelcontextprotocol/servers/tree/HEAD/src/filesystem
Чтение, запись, поиск файлов, создание, удаление и перемещение директорий — всё через MCP.
9. Notion MCP Server
🔗 https://github.com/makenotion/notion-mcp-server
Позволяет моделям управлять вашим рабочим пространством в Notion: поиск, чтение, создание и обновление страниц и баз.
10. Markdownify MCP Server
🔗 https://github.com/zcaceres/markdownify-mcp
Конвертирует PDF, изображения, аудио и веб-страницы в Markdown.
11. Fetch MCP Server
🔗 https://github.com/modelcontextprotocol/servers/tree/main/src/fetch
Позволяет LLM извлекать данные с веб-страниц и автоматически преобразовывать HTML в Markdown.
12. Mobile Next MCP Server
🔗 https://github.com/mobile-next/mobile-mcp
Взаимодействие с iOS/Android-приложениями: распознавание UI по скриншотам, автоматизация кликов.
13. MCP Installer
🔗 https://github.com/anaisbetts/mcp-installer
Шутливо, но по делу: «MCP для установки MCP». Модель сама ставит MCP-серверы из npm и PyPi по вашему запросу.
🧠 Вывод:
MCP-серверы — это мост между LLM и реальными действиями: код, браузер, мобильные приложения, знания, GitHub, файлы.
Их можно комбинировать в цепочки, расширять ассистентов, строить автономные агенты.
@data_analysis_ml
#ml #ai #MCP
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18👍8🔥5
📄 ColQwen2: поиск по документам с учётом визуального оформления
ColQwen2 — это модифицированная версия модели ColPali, предназначенная для поиска документов по их визуальным признакам, а не только по тексту.
🔧 Как работает:
• Каждая страница обрабатывается как изображение
• Используется Qwen2-VL для извлечения не только текста, но и таблиц, графиков, макета
• Создаются мультивекторные эмбеддинги
• Поиск основан на сравнении этих векторов (late interaction)
📌 Зачем это нужно:
Такой подход помогает точнее находить нужные документы — особенно если они содержат сложную структуру, таблицы или нестандартный формат.
Подходит для:
– PDF-файлов
– Отсканированных документов
– Презентаций и отчётов с визуальными элементами
https://huggingface.co/docs/transformers/main/en/model_doc/colqwen2
@data_analysis_ml
#Qwen
ColQwen2 — это модифицированная версия модели ColPali, предназначенная для поиска документов по их визуальным признакам, а не только по тексту.
🔧 Как работает:
• Каждая страница обрабатывается как изображение
• Используется Qwen2-VL для извлечения не только текста, но и таблиц, графиков, макета
• Создаются мультивекторные эмбеддинги
• Поиск основан на сравнении этих векторов (late interaction)
📌 Зачем это нужно:
Такой подход помогает точнее находить нужные документы — особенно если они содержат сложную структуру, таблицы или нестандартный формат.
Подходит для:
– PDF-файлов
– Отсканированных документов
– Презентаций и отчётов с визуальными элементами
https://huggingface.co/docs/transformers/main/en/model_doc/colqwen2
@data_analysis_ml
#Qwen
❤13👍3🔥2
🎥 Video-XL-2 — модель для понимании длинных видео
Многие модели хорошо справляются с бенчмарками, но начинают "захлёбываться", когда ролики становятся длиннее. Video-XL-2 создана, чтобы работать быстро и эффективно с длинными видео, не теряя в качестве.
🔑 Ключевые особенности:
• ⚡ Высокая скорость + низкое потребление памяти
• 🎯 SOTA-показатели среди open-source моделей с аналогичным размером
• 🔁 Поддержка до 10 000+ кадров на одной GPU
• 🧩 Инновации в архитектуре: chunk-based pre-filling и выборочное KV-декодирование
📊 Результаты на бенчмарках:
• MLVU — 74.9
• VideoMME — 66.4
• LVBench — 48.6
При этом модель использует меньше FLOPs, чем конкуренты, даже на больших входных данных — это говорит об отличной энергоэффективности.
🧪 Хорошо справляется с задачами:
– Понимание длинных видеороликов
– Поиск по видео
– Временная локализация событий (Temporal Grounding)
📎 Подробнее и демо
@data_analysis_ml
#AI #VideoUnderstanding #ML #LLM #Multimodal #BAAI
Многие модели хорошо справляются с бенчмарками, но начинают "захлёбываться", когда ролики становятся длиннее. Video-XL-2 создана, чтобы работать быстро и эффективно с длинными видео, не теряя в качестве.
🔑 Ключевые особенности:
• ⚡ Высокая скорость + низкое потребление памяти
• 🎯 SOTA-показатели среди open-source моделей с аналогичным размером
• 🔁 Поддержка до 10 000+ кадров на одной GPU
• 🧩 Инновации в архитектуре: chunk-based pre-filling и выборочное KV-декодирование
📊 Результаты на бенчмарках:
• MLVU — 74.9
• VideoMME — 66.4
• LVBench — 48.6
При этом модель использует меньше FLOPs, чем конкуренты, даже на больших входных данных — это говорит об отличной энергоэффективности.
🧪 Хорошо справляется с задачами:
– Понимание длинных видеороликов
– Поиск по видео
– Временная локализация событий (Temporal Grounding)
📎 Подробнее и демо
@data_analysis_ml
#AI #VideoUnderstanding #ML #LLM #Multimodal #BAAI
❤8👍4🔥2