Forwarded from Machinelearning
Научить робота уверенно брать предметы - это, кажется, вечная тема в робототехнике. Несмотря на десятилетия исследований, надежные и универсальные системы захвата до сих пор остаются скорее теорией, чем реальностью.
Стоит копнуть глубже стандартных демо, и выясняется, что на сложных бенчмарках, FetchBench например, точность лучших систем едва дотягивает до 20%. Это фундаментальный барьер, мешающий внедрять роботов в реальные, неструктурированные среды.
GraspGen - фреймворк для генерации 6-DOF захватов, который не только показывает SOTA результаты, но и вводит новый, крайне интересный подход к обучению.
В его основе лежит связка из генератора на базе Diffusion Transformer и дискриминатора, знакомая всем по GAN-ам архитектура, но с важным отличием.
Генератор, получив на вход облако точек объекта, предлагает множество вариантов захвата, а дискриминатор оценивает их качество и отсеивает неудачные.
И вот тут-то и кроется основная идея, которую в NVIDIA назвали «On-Generator Training». Вместо того чтобы обучать дискриминатор на заранее собранном офлайн-датасете из "хороших" и "плохих" захватов, его учат непосредственно на тех ошибках, которые генерирует его подопечный - диффузионная модель.
Иными словами, дискриминатор становится экспертом не в захватах вообще, а в типичных промахах конкретного генератора. Он учится распознавать и отбраковывать именно те ложноположительные варианты, которые сам генератор считает удачными, но которые на самом деле приведут к провалу. Такой подход создает мощную и целенаправленную обратную связь.
Разработчики выпустили симулированный датасет, содержащий более 53 млн. примеров захватов для 3 разных типов манипуляторов, включая параллельные захваты и вакуумные присоски.
В симуляции на сете ACRONYM GraspGen показывает AUC (площадь под кривой точность-покрытие) 0.94, это больше ближайших конкурентов на 48%.
На комплексном бенче FetchBench он обошел предыдущих лидеров M2T2 и Contact-GraspNet на 7.8% и 16.9% соответственно.
Но самое главное - это тесты на реальном железе. В экспериментах с роботом UR10 в зашумленной среде GraspGen достиг общей успешности в 81.3%, в то время как M2T2 и AnyGrasp показали лишь 52.6% и 63.7%.
Код, веса моделей и датасет уже доступны на GitHub и Hugging Face.
Авторы позаботились об энтузиастах: есть подробные инструкции по установке через Docker или pip, готовые демо-скрипты, позволяющие визуализировать захваты для своих облаков точек или 3D-моделей буквально в несколько команд.
Более того, GraspGen изначально спроектирован как модульная и расширяемая система. Разработчики предоставляют подробный туториал, который объясняет, как генерировать данные и обучать модели для совершенно новых объектов и, что важнее, новых типов манипуляторов, реализуя принцип BYOD.
Интеграция с симулятором Isaac Lab для еще более продвинутой генерации данных и возможность дообучения на реальных данных.
@ai_machinelearning_big_data
#AI #ML #Robotics #GraspGen #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1🔥1
⚡️ Почему лучшие разработчики всегда на шаг впереди?
Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.
ИИ: www.tgoop.com/ai_machinelearning_big_data
Python: www.tgoop.com/pythonl
Linux: www.tgoop.com/linux_read
Devops: www.tgoop.com/DevOPSitsec
Базы данных: www.tgoop.com/sqlhub
Мл собес www.tgoop.com/machinelearning_interview
C++ www.tgoop.com/cpluspluc
Docker: www.tgoop.com/DevopsDocker
Хакинг: www.tgoop.com/linuxkalii
МЛ: www.tgoop.com/machinelearning_ru
Data Science: www.tgoop.com/data_analysis_ml
Javascript: www.tgoop.com/javascriptv
C#: www.tgoop.com/csharp_ci
Java: www.tgoop.com/java_library
Python собеседования: www.tgoop.com/python_job_interview
Мобильная разработка: www.tgoop.com/mobdevelop
Golang: www.tgoop.com/Golang_google
React: www.tgoop.com/react_tg
Rust: www.tgoop.com/rust_code
ИИ: www.tgoop.com/vistehno
PHP: www.tgoop.com/phpshka
Android: www.tgoop.com/android_its
Frontend: www.tgoop.com/front
Big Data: www.tgoop.com/bigdatai
МАТЕМАТИКА: www.tgoop.com/data_math
Kubernets: www.tgoop.com/kubernetc
Разработка игр: https://www.tgoop.com/gamedev
Физика: www.tgoop.com/fizmat
SQL: www.tgoop.com/databases_tg
Базы данных: www.tgoop.com/sql_lib
Папка Go разработчика: www.tgoop.com/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: www.tgoop.com/addlist/eEPya-HF6mkxMGIy
Папка ML: https://www.tgoop.com/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://www.tgoop.com/addlist/mzMMG3RPZhY2M2Iy
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: www.tgoop.com/memes_prog
🇬🇧Английский: www.tgoop.com/english_forprogrammers
🧠ИИ: www.tgoop.com/vistehno
🖥 Chatgpt для кода в тг: @Chatgpturbobot -
📕Ит-книги: https://www.tgoop.com/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии www.tgoop.com/addlist/_zyy_jQ_QUsyM2Vi
Подпишись, чтобы всегда знать, куда двигаться дальше!
Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.
ИИ: www.tgoop.com/ai_machinelearning_big_data
Python: www.tgoop.com/pythonl
Linux: www.tgoop.com/linux_read
Devops: www.tgoop.com/DevOPSitsec
Базы данных: www.tgoop.com/sqlhub
Мл собес www.tgoop.com/machinelearning_interview
C++ www.tgoop.com/cpluspluc
Docker: www.tgoop.com/DevopsDocker
Хакинг: www.tgoop.com/linuxkalii
МЛ: www.tgoop.com/machinelearning_ru
Data Science: www.tgoop.com/data_analysis_ml
Javascript: www.tgoop.com/javascriptv
C#: www.tgoop.com/csharp_ci
Java: www.tgoop.com/java_library
Python собеседования: www.tgoop.com/python_job_interview
Мобильная разработка: www.tgoop.com/mobdevelop
Golang: www.tgoop.com/Golang_google
React: www.tgoop.com/react_tg
Rust: www.tgoop.com/rust_code
ИИ: www.tgoop.com/vistehno
PHP: www.tgoop.com/phpshka
Android: www.tgoop.com/android_its
Frontend: www.tgoop.com/front
Big Data: www.tgoop.com/bigdatai
МАТЕМАТИКА: www.tgoop.com/data_math
Kubernets: www.tgoop.com/kubernetc
Разработка игр: https://www.tgoop.com/gamedev
Физика: www.tgoop.com/fizmat
SQL: www.tgoop.com/databases_tg
Базы данных: www.tgoop.com/sql_lib
Папка Go разработчика: www.tgoop.com/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: www.tgoop.com/addlist/eEPya-HF6mkxMGIy
Папка ML: https://www.tgoop.com/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://www.tgoop.com/addlist/mzMMG3RPZhY2M2Iy
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: www.tgoop.com/memes_prog
🇬🇧Английский: www.tgoop.com/english_forprogrammers
🧠ИИ: www.tgoop.com/vistehno
📕Ит-книги: https://www.tgoop.com/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии www.tgoop.com/addlist/_zyy_jQ_QUsyM2Vi
Подпишись, чтобы всегда знать, куда двигаться дальше!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2😁1
Wtffmpeg — это умный инструмент для терминала, который превращает ваши простые описания в точные команды ffmpeg.
Вместо того чтобы рыться в документации и запоминать сложные параметры, вы просто пишете на естественном языке, что хотите сделать: например, «обрежь видео с 10 по 30 секунду» или «сохрани аудио из ролика в формате MP3» — и Wtffmpeg сам сформирует правильную команду.
Весь процесс происходит локально: ваши файлы и запросы не отправляются ни в какие внешние сервисы, что обеспечивает полную конфиденциальность. Перед выполнением команда отображается на экране, и вы вручную подтверждаете её запуск — так вы всегда сохраняете контроль.
Инструмент поддерживает ускорение обработки через GPU и позволяет настраивать встроенные модели, чтобы повышать точность распознавания задач под ваш стиль работы. Wtffmpeg — это удобный, безопасный и мощный способ работать с медиа, не выходя из терминала.
https://github.com/scottvr/wtffmpeg
Вместо того чтобы рыться в документации и запоминать сложные параметры, вы просто пишете на естественном языке, что хотите сделать: например, «обрежь видео с 10 по 30 секунду» или «сохрани аудио из ролика в формате MP3» — и Wtffmpeg сам сформирует правильную команду.
Весь процесс происходит локально: ваши файлы и запросы не отправляются ни в какие внешние сервисы, что обеспечивает полную конфиденциальность. Перед выполнением команда отображается на экране, и вы вручную подтверждаете её запуск — так вы всегда сохраняете контроль.
Инструмент поддерживает ускорение обработки через GPU и позволяет настраивать встроенные модели, чтобы повышать точность распознавания задач под ваш стиль работы. Wtffmpeg — это удобный, безопасный и мощный способ работать с медиа, не выходя из терминала.
https://github.com/scottvr/wtffmpeg
❤5👍5🔥2
Forwarded from Rust
🦀 Rust на каждом GPU? Теперь это реальность
Команда выпустила серьезное обновление: теперь можно писать универсальный GPU-код на Rust, который работает сразу на разных платформах — без ручной настройки под каждую.
📦 Что нового:
— Поддержка *portable shader crates*
— Один и тот же шейдер можно запускать на Vulkan, WebGPU, Metal и даже CUDA
— Расширенный стандартный набор типов и функций
— Интеграция с
— Поддержка inline-asm и более точной отладки
💡 Почему это важно:
Раньше GPU-код приходилось писать под каждую платформу отдельно (HLSL, GLSL, CUDA). Теперь можно писать всё на Rust и использовать один и тот же код для разных бэкендов.
Это приближает нас к идее truly portable GPU programming — с безопасностью и удобством Rust.
🔗 Подробнее в блоге
@rust_code
Команда выпустила серьезное обновление: теперь можно писать универсальный GPU-код на Rust, который работает сразу на разных платформах — без ручной настройки под каждую.
📦 Что нового:
— Поддержка *portable shader crates*
— Один и тот же шейдер можно запускать на Vulkan, WebGPU, Metal и даже CUDA
— Расширенный стандартный набор типов и функций
— Интеграция с
cargo и spirv-builder стала проще — Поддержка inline-asm и более точной отладки
💡 Почему это важно:
Раньше GPU-код приходилось писать под каждую платформу отдельно (HLSL, GLSL, CUDA). Теперь можно писать всё на Rust и использовать один и тот же код для разных бэкендов.
Это приближает нас к идее truly portable GPU programming — с безопасностью и удобством Rust.
🔗 Подробнее в блоге
@rust_code
🔥9❤2👍2
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Команда Tencent Hunyuan представила модель, способную создавать полноценные трёхмерные сцены всего по одному описанию — тексту или изображению.
— Генерация 3D-сред из текста или картинки
— Поддержка редактирования и симуляций в стандартных CG-пайплайнах (Blender, Unity, Unreal)
— Подходит для игр, VR, цифрового контента и прототипирования живых миров
Вы просто пишете: "Japanese garden at sunset" — и модель генерирует трёхмерную сцену с деревьями, прудом и мягким освещением.
Эта модель может серьёзно повлиять на будущее генеративного 3D — от геймдева до виртуальных миров.
@ai_machinelearning_big_data
#3DGeneration #GenerativeAI #TextTo3D #Hunyuan3D #TencentAI #GameDev #VirtualReality
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥3👍1🥰1
📌 ModelDB — система управления версиями ML-моделей. Этот open-source инструмент помогает отслеживать весь жизненный цикл моделей машинного обучения — от экспериментов до продакшена.
Инструмент поддерживает метаданных, включая гиперпараметры, метрики и окружение. Интегрируется с популярными фреймворками (TensorFlow, PyTorch) и предлагает удобные дашборды для анализа результатов. Подходит командой, которые хотят сделать свои ML-эксперименты воспроизводимыми.
🤖 GitHub
@machinelearning_ru
Инструмент поддерживает метаданных, включая гиперпараметры, метрики и окружение. Интегрируется с популярными фреймворками (TensorFlow, PyTorch) и предлагает удобные дашборды для анализа результатов. Подходит командой, которые хотят сделать свои ML-эксперименты воспроизводимыми.
🤖 GitHub
@machinelearning_ru
👍4❤2
🚀 Анализ текстов задерживает скорость разработки?
Разбираемся, как классический трансформер BERT справляется с миллионами документов за доли секунды!
На открытом уроке «Решаем задачи текстовой классификации с помощью BERT» мы расскажем:
🔹 Внутреннее устройство BERT
🔹 Методы дообучения и интеграции в реальные проекты
🔹 Практические примеры от эксперта OTUS
📅 Когда: 30 июля, 18:00 МСК
🎟 Регистрация бесплатная — зарегистрируйтесь сейчас и получите скидку на программу обучения «NLP / Natural Language Processing» https://otus.pw/CDpD/?erid=2W5zFHR4QDN
Не пропустите шанс повысить свою экспертизу в области NLP!
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Разбираемся, как классический трансформер BERT справляется с миллионами документов за доли секунды!
На открытом уроке «Решаем задачи текстовой классификации с помощью BERT» мы расскажем:
🔹 Внутреннее устройство BERT
🔹 Методы дообучения и интеграции в реальные проекты
🔹 Практические примеры от эксперта OTUS
📅 Когда: 30 июля, 18:00 МСК
🎟 Регистрация бесплатная — зарегистрируйтесь сейчас и получите скидку на программу обучения «NLP / Natural Language Processing» https://otus.pw/CDpD/?erid=2W5zFHR4QDN
Не пропустите шанс повысить свою экспертизу в области NLP!
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🧪 DeePMD-kit — инструмент для молекулярного моделирования с ИИ. Этот open-source проект использует глубокое обучение для предсказания межмолекулярных взаимодействий, сочетая точность квантовых расчетов с производительностью классической молекулярной динамики.
Инструмент интегрируется с популярными симуляторами и оптимизация для GPU. Полезен для исследований в химии, биологии и материаловедении. Поддерживает TensorFlow, PyTorch и другие фреймворки.
🤖 GitHub
@machinelearning_ru
Инструмент интегрируется с популярными симуляторами и оптимизация для GPU. Полезен для исследований в химии, биологии и материаловедении. Поддерживает TensorFlow, PyTorch и другие фреймворки.
🤖 GitHub
@machinelearning_ru
❤3🔥3👍2
📌 Habitat-Lab — фреймворк от Facebook Research для разработки ИИ-агентов, способных взаимодействовать с виртуальными и реальными окружениями. Проект позволяет обучать агентов выполнять различные задачи: от навигации в помещениях до взаимодействия с людьми и перестановки объектов.
Фреймворк поддерживает обучение через имитацию и reinforcement learning, а также интеграцию с ROS для робототехники. Инструмент обладает модульностью: можно настраивать сенсоры агентов, создавать новые задачи и тестировать их в реалистичных 3D-сценах.
🤖 GitHub
Фреймворк поддерживает обучение через имитацию и reinforcement learning, а также интеграцию с ROS для робототехники. Инструмент обладает модульностью: можно настраивать сенсоры агентов, создавать новые задачи и тестировать их в реалистичных 3D-сценах.
🤖 GitHub
🔥4👍2
🧠 Seqeval — специализированная библиотека для оценки моделей последовательностной разметки. Она поддерживает различные схемы аннотации (IOB2, IOE1, BILOU) и предоставляет стандартные метрики качества для задач NER и POS-разметки.
Библиотека предлагает два режима оценки — стандартный и строгий, учитывающий специфику выбранной схемы разметки. Простота интеграции и MIT-лицензия делают её удобным инструментом для NLP-разработчиков.
🤖 GitHub
@machinelearning_ru
Библиотека предлагает два режима оценки — стандартный и строгий, учитывающий специфику выбранной схемы разметки. Простота интеграции и MIT-лицензия делают её удобным инструментом для NLP-разработчиков.
🤖 GitHub
@machinelearning_ru
🔥3❤2👍2
Forwarded from Machinelearning
В основе технологического стека - семейство моделей Codestral, с обновленной моделью Codestral 25.08.
Эта версия показала измеримые улучшения, подтвержденные на реальных кодовых базах: на 30% увеличилось количество принятых автодополнений, на 10% вырос объем сохраняемого после подсказки кода, а число генераций, когда модель производит слишком длинный и некорректный код, сократилось на 50%.
В режиме чата модель также стала лучше: ее способность следовать инструкциям выросла на 5% по метрике IF Eval v8, а общие возможности в программировании улучшились в среднем на 5% по тесту MultiplE.
За это отвечает Codestral Embed, модель для создания векторных представлений, специально спроектированная для кода, а не для обычного текста. По заявлениям Mistral, она превосходит эмбеддинг-решения от OpenAI и Cohere в реальных задачах по извлечению кода.
Ключевое преимущество - возможность настройки размерности эмбеддингов (до 256 измерений с квантованием до INT8), что позволяет балансировать между качеством поиска и хранением данных, сохраняя высокую производительность.
Они реализованные через Devstral - агентскую систему на базе фреймворка OpenHands. Система ориентирована на задачи рефакторинга, генерации тестов и создание pull-реквестов.
На бенче SWE-Bench Verified модель Devstral Small 1.1 выбивает 53.6%, а Devstral Medium - 61.6%, значительно опережая Claude 3.5 и GPT-4.1-mini.
Devstral Small (24 млрд параметров) может работать на одной Nvidia RTX 4090 или Mac с 32 ГБ ОЗУ, что идеально для локальных или изолированных сред.
Все эти возможности объединяются в плагине Mistral Code для IDE от JetBrains и VS Code. Он автодополняет код с помощью Codestral 25.08 и автоматизирует рутину: написание коммитов или docstring’ов через Devstral, и семантический поиск на базе Codestral Embed.
Плагин учитывает контекст из
Git diffs, истории терминала и инструментов статического анализа.Для корпоративных клиентов предусмотрено развертывание в облаке, VPC или полностью on-prem, а также интеграция с SSO, ведение логов аудита и отсутствие обязательной телеметрии.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2
🧠 Horizon (возможно, GPT‑5) — новый уровень "интелелкта" у AI
Новая модель OpenAI с кодовым именем Horizon пробивается на вершины EQ‑лидербордов — оценок эмоционального интеллекта и креативного письма.
💬 По словам Сэма Альтмана, одна из внутренних моделей вызвала у него “AGI‑момент” — настолько она была человечной, творческой и умной.
⚡ Что известно:
— Horizon показывает выдающийся результат в творческом письме и диалогах
— Лидирует в тестах на эмоциональное понимание и эмпатию
— Возможно, это и есть GPT‑5, готовящийся к релизу
Если это так — нас ждёт ИИ, который не просто "понимает", а чувствует и создаёт почти как человек.
Следим за обновлениями.
Подпишись, чтобы не пропустить настоящую гонку AG
Новая модель OpenAI с кодовым именем Horizon пробивается на вершины EQ‑лидербордов — оценок эмоционального интеллекта и креативного письма.
💬 По словам Сэма Альтмана, одна из внутренних моделей вызвала у него “AGI‑момент” — настолько она была человечной, творческой и умной.
⚡ Что известно:
— Horizon показывает выдающийся результат в творческом письме и диалогах
— Лидирует в тестах на эмоциональное понимание и эмпатию
— Возможно, это и есть GPT‑5, готовящийся к релизу
Если это так — нас ждёт ИИ, который не просто "понимает", а чувствует и создаёт почти как человек.
Следим за обновлениями.
Подпишись, чтобы не пропустить настоящую гонку AG
👍7❤4😁4🥰1
🖼️ FLUX.1 Krea [dev] — новое качество генерации изображений с открытыми весами
🔥 Представлено сегодня в рамках совместной разработки Black Forest Labs и Krea AI
✨ Особенности:
• Самая продвинутая открытая FLUX-модель для текст-в-изображение
• Эстетика без «перенасыщенного AI look», фотореализм и богатая детализация
• Готова к донастройке: легко адаптируется под ваши стили и задачи
• Полная совместимость с экосистемой FLUX.1 [dev]
🔧 Почему это важно:
• Новая планка среди open-weight моделей — по качеству приближается к FLUX.1 [pro] и превосходит её по многим параметрам восприятия человеком
• Уникальная «opinionated» стилистика, никакого пресного AI-эффекта
🚀 Доступность:
• Весовые файлы уже опубликованы на Hugging Face под лицензией Dev Non‑Commercial
• Интеграция через API-фреймворк: включён в платформы Replicate, FAL.ai, Together.ai и саму Krea
🌐 Встраиваем в рабочий процесс:
• Используйте как базовую модель для генерации, дальнейшего обучения и fine-tuning
• Подходит для создания кастомных приложений с визуальным стилем
• Доступна для исследований и проектов с ограничениями использования
🎯 FLUX.1 Krea [dev] — это шаг вперёд в мире открытых моделей, сочетающий эстетику, гибкость и высокое качество.
🔗 Поробовать : https://krea.ai
🔗 HF: https://huggingface.co/black-forest-labs/FLUX.1-Krea-dev
🔗Comfy Workflow - https://docs.comfy.org/tutorials/flux/flux1-krea-dev
🔥 Представлено сегодня в рамках совместной разработки Black Forest Labs и Krea AI
✨ Особенности:
• Самая продвинутая открытая FLUX-модель для текст-в-изображение
• Эстетика без «перенасыщенного AI look», фотореализм и богатая детализация
• Готова к донастройке: легко адаптируется под ваши стили и задачи
• Полная совместимость с экосистемой FLUX.1 [dev]
🔧 Почему это важно:
• Новая планка среди open-weight моделей — по качеству приближается к FLUX.1 [pro] и превосходит её по многим параметрам восприятия человеком
• Уникальная «opinionated» стилистика, никакого пресного AI-эффекта
🚀 Доступность:
• Весовые файлы уже опубликованы на Hugging Face под лицензией Dev Non‑Commercial
• Интеграция через API-фреймворк: включён в платформы Replicate, FAL.ai, Together.ai и саму Krea
🌐 Встраиваем в рабочий процесс:
• Используйте как базовую модель для генерации, дальнейшего обучения и fine-tuning
• Подходит для создания кастомных приложений с визуальным стилем
• Доступна для исследований и проектов с ограничениями использования
🎯 FLUX.1 Krea [dev] — это шаг вперёд в мире открытых моделей, сочетающий эстетику, гибкость и высокое качество.
🔗 Поробовать : https://krea.ai
🔗 HF: https://huggingface.co/black-forest-labs/FLUX.1-Krea-dev
🔗Comfy Workflow - https://docs.comfy.org/tutorials/flux/flux1-krea-dev
❤5👍3🔥3
🚀 X-Omni – универсальная дискретная авторегрессивная модель для изображений и текста, прокачанная через Reinforcement Learning!
✅ Единая архитектура для генерации и изображений, и языковых модальностей
✅ Идеальное выполнение инструкций даже самых сложных
✅ Точный рендер текста на английском и китайском
✅ Любые разрешения: красивые картинки без потери качества
🔍 В процессе RL-марафона эстетика растёт, способность следовать инструкциям и рендерить длинные надписи улучшаются с каждой итерацией.
📄 Paper: https://arxiv.org/pdf/2507.22058
💻 GitHub: https://github.com/X-Omni-Team/X-Omni
🌐 Проект: https://x-omni-team.github.io
#AI #XOmni #ReinforcementLearning #ImageGen #Multimodal
✅ Единая архитектура для генерации и изображений, и языковых модальностей
✅ Идеальное выполнение инструкций даже самых сложных
✅ Точный рендер текста на английском и китайском
✅ Любые разрешения: красивые картинки без потери качества
🔍 В процессе RL-марафона эстетика растёт, способность следовать инструкциям и рендерить длинные надписи улучшаются с каждой итерацией.
📄 Paper: https://arxiv.org/pdf/2507.22058
💻 GitHub: https://github.com/X-Omni-Team/X-Omni
🌐 Проект: https://x-omni-team.github.io
#AI #XOmni #ReinforcementLearning #ImageGen #Multimodal
❤3🔥3👍2🤔1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
ByteDance показала экспериментальную языковую модель Seed Diffusion Preview, основанную на дискретной диффузии, которая работает в 5.4 раза быстрее аналогов того же размера, достигая скорости 2146 токенов в секунду. При этом качество генерации кода на ключевых бенчмарках остается сопоставимым.
Для достижения такого результата команда применила двухэтапное обучение и оптимизированный параллельный декодинг. В задачах редактирования кода, диффузионный подход показал явное преимущество над авторегрессионными моделями. ByteDance рассматривает эту технологию как возможную основу для языковых моделей нового поколения. Модель уже доступна для тестирования.
seed.bytedance.com
Manus добавил новую функцию Wide Research, которая позволяет одним кликом задействовать до сотни ИИ-агентов для параллельного выполнения сложных исследовательских задач. Система автоматически определяет, когда требуется расширенный поиск, и запускает множество копий Manus, каждая из которых работает над своей частью задачи в отдельной виртуальной машине.
Архитектура Wide Research вдохновлена парадигмой MapReduce от Google. В отличие от традиционных мультиагентных систем с ролевым разделением, здесь каждый суб-агент является полной копией Manus.
Функция уже доступна для Pro-пользователей, Plus и Basic подписчики получат доступ позже .
Ji Yichao (Co-founder of Manus) в сети Х.
Nvidia анонсировала дебют своей новой модели Queen для создания и стриминга объемного видео. Презентация состоится на конференции по компьютерной графике SIGGRAPH 2025 в Лос-Анджелесе. Демонстрации будут проходить на стенде Dell, где покажут, как Queen в связке с профессиональными видеокартами Nvidia RTX обеспечивает работу телеприсутствия в расширенной реальности и решает другие задачи по созданию контента.
Кроме того, 12 августа Nvidia проведет мероприятие «RTX Rendering Day». На нем исследователи компании расскажут о последних достижениях в области нейронного рендеринга, генерации синтетических данных и интеллектуального создания контента. Посетить сессии смогут все участники конференции.
research.nvidia.com
Command A Vision предназначена для анализа изображений, диаграмм, PDF-файлов и других визуальных данных. По заявлению разработчиков, на стандартных бенчмарках для компьютерного зрения она превосходит GPT-4.1, Llama 4 и Mistral Medium 3.
Модель способна не только считывать текст с документов, но и понимать их структуру, выдавая результат в формате JSON. Кроме того, Command A Vision может анализировать и реальные изображения, например, для выявления потенциальных рисков на промышленных объектах.
Модель уже доступна на платформе Cohere и в репозитории Hugging Face для исследовательских целей. Для запуска понадобятся 2 GPU A100 или один H100 под квантованную 4-битную версию.
cohere.com
В Anthropic обнаружили специфические паттерны нейронной активности - "векторы персоны", которые отвечают за устойчивые черты поведения LLM: склонность к лести, галлюцинациям или откровенно злому поведению.
Выделив эти нейронные сигнатуры, ученые научились предсказывать появление проблемных личностей и, что более важно, "вакцинировать" модели от них. В ходе обучения они намеренно активируют нежелательный вектор, а затем удаляют его перед развертыванием. Это позволяет сохранить общую производительность модели, но при этом значительно снизить риск токсичных или ложных ответов.
Исследование легло в основу новой инициативы Anthropic по так называемой "ИИ-психиатрии", цель которой - мониторинг и управление поведением моделей в больших масштабах. Хотя эксперименты проводились на небольших системах, в Anthropic считают, что эта техника поможет коммерческим чат-ботам избегать непредсказуемых изменений личности.
anthropic.com
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3🥰1🤔1
🚂 Trax — библиотека для глубокого обучения от Google Brain. Проект предлагает чистый и производительный код для работы с нейросетями, включая Transformer и Reformer.
Проект имеет встроенную поддержку TPU/GPU и готовые реализации современных архитектур с возможностью тонкой настройки. Библиотека подходит как для обучения с нуля, так и для использования предобученных моделей, например, можно развернуть переводчик с английского на немецкий всего в несколько строк кода.
🤖 GitHub
@machinelearning_ru
Проект имеет встроенную поддержку TPU/GPU и готовые реализации современных архитектур с возможностью тонкой настройки. Библиотека подходит как для обучения с нуля, так и для использования предобученных моделей, например, можно развернуть переводчик с английского на немецкий всего в несколько строк кода.
🤖 GitHub
@machinelearning_ru
😁5👍3🔥3🥰2
😱 WHAT THE HECK
Очередная открытая модель уделала закрытые!
XBai o4 обходит OpenAI o3-mini и *уверенно* превосходит Claude Opus от Anthropic.
•Parameter: 32,8 B
•Training: Long‑CoT RL + Process Reward Learning (SPRM)
•Benchmarks (High‑Modus):
•AIME24: 86,5
•AIME25: 77,9
•LiveCodeBench v5: 67,2
•C‑EVAL: 89,7
🔥 Открытый ИИ снова на коне.
🔗Open-source weights: https://huggingface.co/MetaStoneTec/XBai-o4
Очередная открытая модель уделала закрытые!
XBai o4 обходит OpenAI o3-mini и *уверенно* превосходит Claude Opus от Anthropic.
•Parameter: 32,8 B
•Training: Long‑CoT RL + Process Reward Learning (SPRM)
•Benchmarks (High‑Modus):
•AIME24: 86,5
•AIME25: 77,9
•LiveCodeBench v5: 67,2
•C‑EVAL: 89,7
🔥 Открытый ИИ снова на коне.
🔗Open-source weights: https://huggingface.co/MetaStoneTec/XBai-o4
🔥7❤6👍2🥰2👎1
Forwarded from Machinelearning
🚀 Tencent расширяет экосистему Hunyuan LLM и выкладывают в открытый доступ еще 4 компактных моделей — 0.5B, 1.8B, 4B и 7B!
Эти модели заточены под low-power устройства: ПК, смартфоны, авто, умные дома и пользовательские GPU.
Модели легко настраиваются под вертикальные задачи и запускаются даже на одной карте.
💡 Особенности:
✅ Fast/slow thinking режимы: лаконичные или глубокие ответы
✅ 256K контекст и продвинутые агентные способности (tool use, планирование, reasoning)
✅ Хорошие метрики на тестах по языку, математике и логике
✅ Модели готовы к продакшену — работают с SGLang, vLLM, TensorRT-LLM
🖥 GitHub:
- 0.5B: https://github.com/Tencent-Hunyuan/Hunyuan-0.5B
- 1.8B: https://github.com/Tencent-Hunyuan/Hunyuan-1.8B
- 4B: https://github.com/Tencent-Hunyuan/Hunyuan-4B
- 7B: https://github.com/Tencent-Hunyuan/Hunyuan-7B
🤗 Hugging Face:
- 0.5B: https://huggingface.co/tencent/Hunyuan-0.5B-Instruct
- 1.8B: https://huggingface.co/tencent/Hunyuan-1.8B-Instruct
- 4B: https://huggingface.co/tencent/Hunyuan-4B-Instruct
- 7B: https://huggingface.co/tencent/Hunyuan-7B-Instruct
🔗 Подробнее: https://hunyuan.tencent.com/modelSquare/home/list
@ai_machinelearning_big_data
#Tencent #Hunyuan #ml #llm #ai #opensource
Эти модели заточены под low-power устройства: ПК, смартфоны, авто, умные дома и пользовательские GPU.
Модели легко настраиваются под вертикальные задачи и запускаются даже на одной карте.
💡 Особенности:
✅ Fast/slow thinking режимы: лаконичные или глубокие ответы
✅ 256K контекст и продвинутые агентные способности (tool use, планирование, reasoning)
✅ Хорошие метрики на тестах по языку, математике и логике
✅ Модели готовы к продакшену — работают с SGLang, vLLM, TensorRT-LLM
- 0.5B: https://github.com/Tencent-Hunyuan/Hunyuan-0.5B
- 1.8B: https://github.com/Tencent-Hunyuan/Hunyuan-1.8B
- 4B: https://github.com/Tencent-Hunyuan/Hunyuan-4B
- 7B: https://github.com/Tencent-Hunyuan/Hunyuan-7B
🤗 Hugging Face:
- 0.5B: https://huggingface.co/tencent/Hunyuan-0.5B-Instruct
- 1.8B: https://huggingface.co/tencent/Hunyuan-1.8B-Instruct
- 4B: https://huggingface.co/tencent/Hunyuan-4B-Instruct
- 7B: https://huggingface.co/tencent/Hunyuan-7B-Instruct
🔗 Подробнее: https://hunyuan.tencent.com/modelSquare/home/list
@ai_machinelearning_big_data
#Tencent #Hunyuan #ml #llm #ai #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3🔥2
