Telegram Web
🌟 UnifiedReward-Think-7B: первая reward-MMLM с CoT для визуального анализа.

Ресерчеры из Tencent и их коллеги создали UnifiedReward-Think-7B, первую мультимодальную модель, которая сочетает цепочки рассуждений с обучением с подкреплением.

Основная идея была в том, чтобы научить модель не только выдавать итоговую оценку, но и подробно объяснять ход мыслей. Например, анализируя сгенерированное изображение, она шаг за шагом проверяет соответствие текстовому запросу, качество деталей и логическую согласованность. Такой механизм не только повышает надежность оценок, но и помогает выявлять ошибки в сложных сценариях, где поверхностный анализ слишком трудоемкий.

Тестовую модель обучали в 3 стадии:

🟢«Холодный старт» - небольшой набор данных с примерами рассуждений, созданных GPT-4o, который учит модель формату CoT.

🟢Отбраковка выборок: модель генерирует собственные рассуждения для разных задач, а правильные варианты сохраняются для дальнейшей тонкой настройки.

🟢GRPO - на финальной стадии модель экспериментирует с ошибочными ответами, улучшая логику методом проб и ошибок.

Эксперименты показали, что UnifiedReward-Think обходит существующие аналоги. В задачах на понимание изображений она на 5-7% точнее базовой UnifiedReward-7b, созданной месяцем ранее. В генерации видео разрыв еще заметнее: модель лучше оценивает как соответствие запросу, так и плавность анимации.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Набор датасетов
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #CoT #UnifiedReward #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI пригласила гендиректора Instacart возглавить направление разработки приложений.

OpenAI привлекла Фи́джи Симо, CEO Instacart, на роль главы направления приложений. Она будет курировать интеграцию исследований в реальные продукты, подчиняясь напрямую Сэму Альтману. Симо, ранее входившая в совет директоров OpenAI, известна успешным IPO Instacart и опытом управления продуктами в компании Марка Цукерберга. Ее задача в OpenAI - масштабировать бизнес-процессы компании на фоне роста и реструктуризации.

В OpenAI ожидают, что Симо поможет укрепить связь между фундаментальными разработками и их практическим применением. Альтман теперь сосредоточится на исследованиях, вычислительных системах и безопасности ИИ. Симо останется в Instacart до конца переходного периода, после чего полностью перейдет в OpenAI.
cnbc.com

✔️ Anthropic открыла API для веб-поиска.

Anthropic запустила API, позволяющий моделям Claude искать информацию в интернете. Теперь разработчики смогут встраивать в приложения актуальные данные без собственной поисковой инфраструктуры. Система анализирует запросы: если нужны свежие сведения, Claude формирует поисковый запрос, обрабатывает результаты и выдаёт ответ с цитатами, уточняя вопросы на основе предыдущих находок.

В API доступна настройка доменов для поиска, блокировка нежелательных источников и управление доступом на уровне организации. Например, можно разрешить Claude сканировать только корпоративные ресурсы или научные базы. API работает с Claude 3.5 Sonnet, 3.7 Sonnet и 3.5 Haiku, а цена стартует от $10 за 1000 запросов.
anthropic.com

✔️ Google внедряет неявное кэширование в Gemini API.

Google анонсировала автоматическую функцию кэширования для Gemini API, которая обещает сократить расходы разработчиков на использование моделей Gemini 2.5 Pro и 2.5 Flash. В отличие от явного кэширования, где приходится вручную задавать частые запросы, новая система сама определяет повторяющиеся данные (общие префиксы в промптах) и экономит до 75% затрат на обработку. Минимум для срабатывания: 1024 токена в Gemini 2.5 Flash и 2048 в Pro (1 токен ≈ 0,75 слова для английского языка).

Google советует размещать повторяющийся контекст в начале запросов, а динамические данные - в конце, чтобы повысить шансы попадания в кэш. Однако, компания не предоставила независимых подтверждений заявленной экономии, а значит, реальная эффективность станет ясна после тестов ранними пользователями. Если обещания сбудутся, неявное кэширование может стать серьезным шагом в снижении стоимости работы с ИИ, особенно для проектов с шаблонными задачами.
developers.googleblog.com

✔️ Робота для пинг-понга создали в MIT.

Инженеры MIT представили роботизированную руку, которая играет в настольный теннис на уровне профессионалов. Устройство использует 5 суставов для контроля ракетки и оснащено камерами, данные с которых обрабатываются алгоритмами реального времени на 3 компьютерах. Система предсказывает траекторию мяча за доли секунды и наносит удары со скоростью до 19 м/с. В тестах робот успешно отразил 88% подач, включая топспины, прямые удары и подрезки - это выше, чем у предыдущих аналогов.

Сейчас робот «работает» в фиксированной зоне стола, но в планах - установить его на мобильную платформу для расширения зоны действия. Проект будет представлен на конференции ICRA.
interestingengineering.com

✔️ Infinix анонсировала умные наушники с переводом 162 языков в реальном времени.

Infinix AI Buds работают на собственном ИИ-движке CogLabs: режимы «Перевод диалогов» и «Синхронный перевод» упрощают общение на разных языках, а функция транскрибации превращает речь в текст. Технология шумоподавления (до 45 дБ) адаптируется к окружению, а прозрачный кейс с сенсорным экраном позволяет управлять музыкой и настройками без смартфона. Батарея держит до 36 часов работы (без шумодава), а грядущее обновление добавит голосового помощника Folax для управления через голос.

Наушники уже доступны на Indiegogo по цене от $79. Ранние покупатели получат их первыми.
prnewswire.co.uk

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ HunyuanCustom: консистентная видеогенерация c инпейнтом и липсинком.

Tencent выпустила HunyuanCustom, фреймворк, который не только генерирует видео по заданным условиям, но и умеет сохранять консистентность субъектов, будь то человек, животное или предмет. Модель справляется даже с мультисубъектными сценами: в демо-роликах люди естественно взаимодействуют с предметами, а текст на упаковках не плывет между кадрами.

В основе модели лежит улучшенный механизм слияния текста и изображений через LLaVA. Например, если вы загружаете фото женщины в платье и текст «танцует под дождем», система анализирует оба инпута, связывая описание с визуальными деталями.

Но главное - это модуль временной конкатенации: он «растягивает» особенности изображения вдоль временной оси видео, используя 3D-VAE. Это помогает избежать «прыгающих» лиц или внезапных изменений фона, проблемы, которая характерна даже для топовых моделей видеогенерации.

Tencent переработали и пайплайн аудио. Для синхронизации звука с движениями губ или действиями в кадре HunyuanCustom использует AudioNet, модуль, который выравнивает аудио- и видеофичи через пространственное кросс-внимание.

Фреймворк поддерживает возможность замены объекта в готовом ролике (скажем, подставить новую модель кроссовок в рекламу), модель сжимает исходное видео в латентное пространство, выравнивает его с шумными данными и встраивает изменения без артефактов на границах.

Экспериментальные тесты показали, что HunyuanCustom обходит конкурентов по ключевым метрикам. Например, Face-Sim (сохранение идентичности лица) у Tencent — 0.627 против 0.526 у Hailuo, а с Keling, Vidu, Pika и Skyreels разрыв еще больше.

⚠️ Для работы модель требует минимум 24 ГБ видеопамяти для роликов 720p, но чтобы раскрыть все возможности, разработчики рекомендуют 80 ГБ VRAM.

Код и чекпоинты уже доступны в открытом доступе, а в репозитории есть примеры запуска как на нескольких GPU, так и в экономном режиме для потребительских видеокарт.


📌Лицензирование кода : Tencent Hunyuan Community License.


🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Video #HunyuanCustom #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 В Qwen теперь есть песочницы для генерации и запуска кода.

Web Dev — новый инструмент для создания готовых фронтенд-страниц и приложений в Qwen Chat.

🎨 Просто напишите: «Создай сайт как ...» — и готово! Вы получаете код приложения.

Сгенерировали парочку лендингов и простенькую игру для теста - хорошо понимает промпты, работает шустро.

➡️ Попробовать: https://chat.qwen.ai/?inputFeature=web_dev

@ai_machinelearning_big_data

#qwen #codegenerator #online
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
✔️ Тенденция регулирования ИИ меняется: техгиганты переходят от «стремления к регулированию» к «отказу от регулирования».

Сэм Альтман, генеральный директор OpenAI, на слушаниях в Сенате заявил, что государственное одобрение для запуска мощных ИИ-систем губительно для технологического лидерства США. Это резкий разворот позиции после его же призывов к созданию регуляторного агентства два года назад. Теперь акцент сместился: вместо предупреждений об «экзистенциальных рисках» ИИ топ-менеджеры и власти требуют ускорить разработки, чтобы обогнать Китай.

OpenAI не одинока в резком смене курса: Google DeepMind отказался от запрета на военные ИИ-проекты, а Microsoft и компания Марка Цукерберга сняли ограничения на сотрудничество с армией.
washingtonpost.com

✔️ Nvidia адаптирует чип H20 для Китая, чтобы обойти экспортный контроль США.

Nvidia планирует выпустить упрощенную версию чипа H20 для китайского рынка уже в июле. Модификация связана с ужесточением экспортных ограничений США, которые заблокировали поставки оригинального чипа без специальной лицензии. Новый вариант H20 получит значительно урезанную память и другие технические ограничения, но позволит Nvidia сохранить позиции на ключевом рынке, где за прошлый год компания заработала $17 млрд.

По данным инсайдеров, китайские клиенты Tencent, Alibaba и ByteDance уже активно интересовались чипом, нарастив заказы до $18 млрд только с начала года. Глава Nvidia Дженсен Хуанг недавно посетил Пекин, подчеркнув стратегическую важность региона для компании.
reuters.com

✔️ Google инвестирует в 3 площадки для развития ядерной энергетики в США.

Google расширяет свое участие в энергетическом секторе, выделив финансирование стартапу Elementl Power для подготовки 3 площадок под современные ядерные проекты в США. Каждый объект планируют оснастить реакторами мощностью от 600 МВт, что должно помочь корпорации обеспечить стабильное энергоснабжение для своих дата-центров. Сумма вложений не раскрывается, но цель партнерства — ускорить ввод новых мощностей до 2035 года.

Elementl Power, основанная в 2022 году, позиционирует себя как разработчика «под ключ», предлагающего решения для клиентов, которые хотят доступ к чистой энергии.
world-nuclear-news.org

✔️ LegoGPT генерирует конструкции LEGO по текстовым описаниям.

Исследователи из Университета Карнеги-Меллон представили LegoGPT — нейросеть, которая превращает текстовые запросы в рабочие схемы сборки LEGO. Модель обучалась на 47 тысячах структур, что позволяет ей создавать оригинальные дизайны с нуля.

Система поэтапно подбирает блоки, проверяя их совместимость и устойчивость. Если деталь пересекается с другими или «висит в воздухе», LegoGPT откатывается к стабильному шагу и продолжает сборку. Результат всегда можно собрать руками или роботом. Код проекта доступен на GitHub.
tomshardware.com

✔️ Google создала Gemini Nano для защиты от мошенничества в реальном времени.

Google усилила борьбу с онлайн-мошенничеством, интегрировав модель Gemini Nano в браузер Chrome. Технология работает прямо на устройстве, анализируя сайты в режиме реального времени и блокируя фишинговые страницы до того, как пользователь успеет ввести данные.

В Android-версии Chrome появились ИИ-уведомления: если система заподозрит спам в push-сообщениях, предложит отписаться или заблокировать. Аналогичные алгоритмы теперь сканируют звонки и SMS — Gemini Nano распознает подозрительные шаблоны, даже если схема новая.
blog.google

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 ZeroSearch: Обучение языковых моделей поиску без реальных поисковиков.

ZeroSearch — фреймворк на базе RL от Alibaba, который учит языковые модели искать данные, вообще не подключаясь к реальным поисковым системам.

Пайплайн ZeroSearch начинается с тонкой настройки (SFT): модель учат генерировать документы, похожие на вывод реального поисковика. Через промпты вида «создай пять полезных/мусорных документов» LLM осваивает 2 режима: релевантные ответы с правильными фактами и «мусор» с случайной информацией.

Дальше в дело вступает RL. Модель-агент взаимодействует с этим «виртуальным поисковиком»: сначала рассуждает в тегах <think>, затем генерирует поисковые запросы через <search>, а получив смоделированные документы, формирует окончательный ответ в <answer>.

Сквозь весь процесс происходит поэтапное усложнение. В начале тренировки 90% документов чистые, чтобы агент освоил базовую логику. С каждым шагом доля шума растет по специальной формуле: через 200 итераций вероятность получить бесполезный документ увеличивается вчетверо.

Это заставляет модель учиться фильтровать информацию даже в условиях хаоса. Чтобы избежать «смешивания» собственных выводов агента и сгенерированных документов, в градиентах маскируются токены чужих ответов — так фокус остается на улучшении стратегии поиска, а не на подгонке под шум.

На выходе получается автономный агент, который не просто ищет, но и учится когда искать, как формулировать запросы и что игнорировать. И все это без единого реального API, только симуляция и математика.

Итоги экспериментальных тестов выглядят позитивными. На датасете NQ ZeroSearch с моделью Qwen-2.5-7B-Instruct показала 43.24% точности (EM), оставляя позади Search-R1 с его 41.46%, хотя последний использует реальный Google. Для многосложных вопросов в HotpotQA разрыв еще заметнее: 29.21% против 34.55% у конкурента.

Но главное, 14B-версия модели превосходит живой поисковик по среднему показателю на 33.97% против 32.47% у Google. Интересно еще и то, как масштаб влияет на результат: 3B модель дает 33.97% точности, 7B — 38.61%, а 14B — уже 40.54%.

▶️ На Huggingface опубликованы Simulation модели c 3, 7 и 14 млрд. параметров, заточенные под имитацию работы поисковых систем для фреймворка ZeroSearch. Их назначение - генерировать документы двух типов:

🟢Релевантные (содержат точные ответы на запросы);

🟠Зашумленные (включают нерелевантный текст, ошибки или отвлеченные факты).

⚠️ В промпте к этим моделям необходимо добавить метки [useful] или [noisy] . В инференсе модель возвращает 5 документов заданного типа.

🔜 Готовые модели на базе Qwen2.5 и Llama2.5 с ZeroSearch доступны в этой коллекции


🟡Arxiv
🟡Датасет
🟡Набор Simulation моделей
🟡Коллекция обученных моделей
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #ZeroSearch #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 NVIDIA научили гуманоидных роботов двигаться как люди — прямо из симуляции в реальный мир !

Джим Фан (Директор по ИИ в NVIDIA) рассказал, что их команда добилась впечатляющего результата: роботы научились ходить и ориентироваться в пространстве без обучения в реальном мире.

Всё обучение прошло в симуляции, и после этого роботы сразу были отправлены на выполнение задач в открытом пространстве.

🌟 Что особенно впечатляет:

➡️ Обучение, которое заняло бы 10 лет в реальности, было сжато всего в 2 часа симуляции.

✔️ Как это возможно:

- Нет физических ограничений. В симуляции робот может падать и вставать хоть миллион раз без поломки. В реальности он бы ломался.

- Ускорение времени. В симуляции нет ограничений «реального времени» — можно крутить процесс с любой скоростью, насколько позволяет железо.

- Параллельное обучение. Можно сразу запускать много виртуальных роботов и собирать опыт с них всех одновременно.

Для обучения не понадобились гигантские модели -всего 1.5 миллиона параметров (не миллиардов!) хватило, чтобы смоделировать «подсознательную механику» движения человеческого тела.

Очень мощный шаг для развития embodied AI и робототехники 🚀

➡️ Полное выступление

@ai_machinelearning_big_data

#ai #robots #nvidia #future
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 9 бесплатных курсов c HuggingFace по искусственному интеллекту!

➡️Узнайте, как обучать, настраивать и развертывать большие языковые модели с помощью HuggingFace Transformers.
https://huggingface.co/learn/llm-course/chapter1/1

➡️Курс по AI-агентам
Создавайте инструменты с многоэтапным мышлением, используя LangChain и HF.
https://huggingface.co/learn/agents-course/unit0/introduction

➡️ Курс по глубокому обучению с подкреплением (Deep RL)
Научите агентов принимать решения и учиться на основе окружающей среды.
https://huggingface.co/learn/deep-rl-course/unit0/introduction

➡️ Курс по компьютерному зрению
Изучите как работает OCR, сегментация и классификация изображений с моделями HuggingFace.
https://huggingface.co/learn/audio-course/chapter0/introduction

➡️ Курс по работе с аудио
Применяйте трансформеры к аудио: распознавание речи, тегирование музыки и синтез речи.
https://huggingface.co/learn/audio-course/chapter0/introduction

➡️ Курс по машинному обучению для игр
Узнайте, как ИИ меняет разработку игр: от поведения NPC до генерации контента.
https://huggingface.co/learn/ml-games-course/unit0/introduction

➡️ Курс по машинному обучению для 3D
Работайте с 3D-данными, такими как облака точек и сетки, на стыке графики и ML.
https://huggingface.co/learn/ml-for-3d-course/unit0/introduction

➡️ Курс по диффузионным моделям
Погрузитесь в технологию, лежащую в основе DALL·E и Stable Diffusion, и научитесь генерировать изображения.
https://huggingface.co/learn/diffusion-course/unit0/1

➡️ Кулинарная книга по открытому ИИ (Open-Source AI Cookbook)
Коллекция практических ноутбуков от реальных разработчиков ИИ — учитесь, копируйте код и создавайте свои проекты. https://huggingface.co/learn/cookbook/index

@ai_machinelearning_big_data

#free #courses #opensource #huggingface
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Pocket Flow: минималистичный фреймворк для LLM в 100 строках кода

Популярные фреймворки превращают простые задачи в квест по разгадыванию чужого кода. Бесконечные обертки, конфликты версий, устаревшая документация… Всё это не просто раздражает, это замедляет разработку. После года борьбы с перегруженными инструментами по типу LangChain, разработчик из Microsoft Research Zachary Huang посвятил свободное время созданию Pocket Flow — фреймворка, который уместил всю магию LLM в 100 строк кода.

Pocket Flow предлагает радикально иной подход: минимализм. В основе — идея, что любой LLM-пайплайн можно представить как граф из узлов и переходов. Никаких скрытых слоёв, только логика и прозрачность.

Чтобы разобраться как работает Pocket Flow, представьте кухню, где каждый узел — зона для готовки.

BaseNode выполняет три шага: подготовка (собрать данные), выполнение (обработать запрос), постобработка (сохранить результат).

Flow управляет «рецептом»: решает, куда передать управление дальше. Все взаимодействие происходит через общее хранилище данных — как стол, на котором лежат ингредиенты для всех поваров.

Пример? Допустим, вы строите поискового агента. Создаёте узлы: DecideAction (решает, нужен ли поиск), SearchWeb (ищет в интернете), AnswerQuestion (формирует ответ). Связываете их в граф, где решение одного узла определяет следующий шаг. Если модель не знает ответ тогда запускается поиск, результаты добавляются в контекст, и цикл повторяется. Все это — пара сотен строк кода поверх ядра Pocket Flow.

Главное преимущество Pocket Flow - свобода. Нет привязки к конкретным API, подключайте любые модели, даже локальные. Нет зависимостей: ваш проект остается «легким», а интерфейсы не ломаются после обновлений. Хотите кеширование запросов или потоковую обработку? Реализуйте сами, без борьбы с чужими абстракциями.

Безусловно, у минимализма есть цена: вы не получите готовых решений для каждой задачи. Но именно в этом сила Pocket Flow. Он дает контроль и понимание процесса, а не готовый, но черный ящик.

Если вы устали от фреймворков-монстров и хотите начать с чистого листа — загляните в репозиторий Pocket Flow. Там есть примеры агентов, RAG-систем и мультиагентных сценариев.


📌Лицензирование: MIT License.


🟡Статья
🟡Документация
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Framework #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🟢Google: 25% нашего кода пишет ИИ

🟢 Microsoft: У нас 30% кода написано ИИ!

🟡 Anthropic: Подержи мое пиво — «Около 80–90% используемого нами кода сгенерировал Claude.

Некоторые задачи всё ещё требуют написания кода человеком — особенно те, что связаны со сложным рефакторингом или если есть определенные предпочтения по стилю/ архитектурным решениям.» - Лид-инженер Anthropic Boris Cherny.

Может поэтому они перестали выпускать новые модели?

@ai_machinelearning_big_data

#Anthropic #interview
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Qwen официально выпустили квантованные версии Qwen3!

Теперь Qwen3 можно развернуть через Ollama, LM Studio, SGLang и vLLM — выбирайте удобный формат (GGUF, AWQ или GPTQ) для локального деплоя.

Все модели доступны в коллекции Qwen3 на Hugging Face и ModelScope:

➡️Hugging Face: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

➡️ ModelScope: https://modelscope.cn/collections/Qwen3-9743180bdc6b48

@ai_machinelearning_big_data

#Qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/07/08 10:48:26
Back to Top
HTML Embed Code: