Machinelearning 7554 - Telegram Web

Machinelearning

🌟

UnifiedReward-Think-7B: первая reward-MMLM с CoT для визуального анализа.

Ресерчеры из Tencent и их коллеги создали UnifiedReward-Think-7B, первую мультимодальную модель, которая сочетает цепочки рассуждений с обучением с подкреплением.

Основная идея была в том, чтобы научить модель не только выдавать итоговую оценку, но и подробно объяснять ход мыслей. Например, анализируя сгенерированное изображение, она шаг за шагом проверяет соответствие текстовому запросу, качество деталей и логическую согласованность. Такой механизм не только повышает надежность оценок, но и помогает выявлять ошибки в сложных сценариях, где поверхностный анализ слишком трудоемкий.

Тестовую модель обучали в 3 стадии:

🟢«Холодный старт» - небольшой набор данных с примерами рассуждений, созданных GPT-4o, который учит модель формату CoT.

🟢Отбраковка выборок: модель генерирует собственные рассуждения для разных задач, а правильные варианты сохраняются для дальнейшей тонкой настройки.

🟢GRPO - на финальной стадии модель экспериментирует с ошибочными ответами, улучшая логику методом проб и ошибок.

Эксперименты показали, что UnifiedReward-Think обходит существующие аналоги. В задачах на понимание изображений она на 5-7% точнее базовой UnifiedReward-7b, созданной месяцем ранее. В генерации видео разрыв еще заметнее: модель лучше оценивает как соответствие запросу, так и плавность анимации.

📌Лицензирование: MIT License.

🟡

Страница проекта

🟡

🟡

🟡

Набор датасетов

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #MMLM #CoT #UnifiedReward #Tencent

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

23.6K views12:04

Machinelearning

Media is too big

VIEW IN TELEGRAM

✔️

OpenAI пригласила гендиректора Instacart возглавить направление разработки приложений.

OpenAI привлекла Фи́джи Симо, CEO Instacart, на роль главы направления приложений. Она будет курировать интеграцию исследований в реальные продукты, подчиняясь напрямую Сэму Альтману. Симо, ранее входившая в совет директоров OpenAI, известна успешным IPO Instacart и опытом управления продуктами в компании Марка Цукерберга. Ее задача в OpenAI - масштабировать бизнес-процессы компании на фоне роста и реструктуризации.

В OpenAI ожидают, что Симо поможет укрепить связь между фундаментальными разработками и их практическим применением. Альтман теперь сосредоточится на исследованиях, вычислительных системах и безопасности ИИ. Симо останется в Instacart до конца переходного периода, после чего полностью перейдет в OpenAI.
cnbc.com

✔️

Anthropic открыла API для веб-поиска.

Anthropic запустила API, позволяющий моделям Claude искать информацию в интернете. Теперь разработчики смогут встраивать в приложения актуальные данные без собственной поисковой инфраструктуры. Система анализирует запросы: если нужны свежие сведения, Claude формирует поисковый запрос, обрабатывает результаты и выдаёт ответ с цитатами, уточняя вопросы на основе предыдущих находок.

В API доступна настройка доменов для поиска, блокировка нежелательных источников и управление доступом на уровне организации. Например, можно разрешить Claude сканировать только корпоративные ресурсы или научные базы. API работает с Claude 3.5 Sonnet, 3.7 Sonnet и 3.5 Haiku, а цена стартует от $10 за 1000 запросов.
anthropic.com

✔️

Google внедряет неявное кэширование в Gemini API.

Google анонсировала автоматическую функцию кэширования для Gemini API, которая обещает сократить расходы разработчиков на использование моделей Gemini 2.5 Pro и 2.5 Flash. В отличие от явного кэширования, где приходится вручную задавать частые запросы, новая система сама определяет повторяющиеся данные (общие префиксы в промптах) и экономит до 75% затрат на обработку. Минимум для срабатывания: 1024 токена в Gemini 2.5 Flash и 2048 в Pro (1 токен ≈ 0,75 слова для английского языка).

Google советует размещать повторяющийся контекст в начале запросов, а динамические данные - в конце, чтобы повысить шансы попадания в кэш. Однако, компания не предоставила независимых подтверждений заявленной экономии, а значит, реальная эффективность станет ясна после тестов ранними пользователями. Если обещания сбудутся, неявное кэширование может стать серьезным шагом в снижении стоимости работы с ИИ, особенно для проектов с шаблонными задачами.
developers.googleblog.com

✔️

Робота для пинг-понга создали в MIT.

Инженеры MIT представили роботизированную руку, которая играет в настольный теннис на уровне профессионалов. Устройство использует 5 суставов для контроля ракетки и оснащено камерами, данные с которых обрабатываются алгоритмами реального времени на 3 компьютерах. Система предсказывает траекторию мяча за доли секунды и наносит удары со скоростью до 19 м/с. В тестах робот успешно отразил 88% подач, включая топспины, прямые удары и подрезки - это выше, чем у предыдущих аналогов.

Сейчас робот «работает» в фиксированной зоне стола, но в планах - установить его на мобильную платформу для расширения зоны действия. Проект будет представлен на конференции ICRA.
interestingengineering.com

✔️

Infinix анонсировала умные наушники с переводом 162 языков в реальном времени.

Infinix AI Buds работают на собственном ИИ-движке CogLabs: режимы «Перевод диалогов» и «Синхронный перевод» упрощают общение на разных языках, а функция транскрибации превращает речь в текст. Технология шумоподавления (до 45 дБ) адаптируется к окружению, а прозрачный кейс с сенсорным экраном позволяет управлять музыкой и настройками без смартфона. Батарея держит до 36 часов работы (без шумодава), а грядущее обновление добавит голосового помощника Folax для управления через голос.

Наушники уже доступны на Indiegogo по цене от $79. Ранние покупатели получат их первыми.
prnewswire.co.uk

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

16.8K views06:40

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️

HunyuanCustom: консистентная видеогенерация c инпейнтом и липсинком.

Tencent выпустила HunyuanCustom, фреймворк, который не только генерирует видео по заданным условиям, но и умеет сохранять консистентность субъектов, будь то человек, животное или предмет. Модель справляется даже с мультисубъектными сценами: в демо-роликах люди естественно взаимодействуют с предметами, а текст на упаковках не плывет между кадрами.

В основе модели лежит улучшенный механизм слияния текста и изображений через LLaVA. Например, если вы загружаете фото женщины в платье и текст «танцует под дождем», система анализирует оба инпута, связывая описание с визуальными деталями.

Но главное - это модуль временной конкатенации: он «растягивает» особенности изображения вдоль временной оси видео, используя 3D-VAE. Это помогает избежать «прыгающих» лиц или внезапных изменений фона, проблемы, которая характерна даже для топовых моделей видеогенерации.

Tencent переработали и пайплайн аудио. Для синхронизации звука с движениями губ или действиями в кадре HunyuanCustom использует AudioNet, модуль, который выравнивает аудио- и видеофичи через пространственное кросс-внимание.

Фреймворк поддерживает возможность замены объекта в готовом ролике (скажем, подставить новую модель кроссовок в рекламу), модель сжимает исходное видео в латентное пространство, выравнивает его с шумными данными и встраивает изменения без артефактов на границах.

Экспериментальные тесты показали, что HunyuanCustom обходит конкурентов по ключевым метрикам. Например, Face-Sim (сохранение идентичности лица) у Tencent — 0.627 против 0.526 у Hailuo, а с Keling, Vidu, Pika и Skyreels разрыв еще больше.

⚠️ Для работы модель требует минимум 24 ГБ видеопамяти для роликов 720p, но чтобы раскрыть все возможности, разработчики рекомендуют 80 ГБ VRAM.

Код и чекпоинты уже доступны в открытом доступе, а в репозитории есть примеры запуска как на нескольких GPU, так и в экономном режиме для потребительских видеокарт.

📌Лицензирование кода : Tencent Hunyuan Community License.

🟡

Страница проекта

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Video #HunyuanCustom #Tencent

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

35.5K views11:06

Machinelearning

🔥 В Qwen теперь есть песочницы для генерации и запуска кода.

Web Dev — новый инструмент для создания готовых фронтенд-страниц и приложений в Qwen Chat.

🎨 Просто напишите: «Создай сайт как ...» — и готово! Вы получаете код приложения.

Сгенерировали парочку лендингов и простенькую игру для теста - хорошо понимает промпты, работает шустро.

➡️

Попробовать: https://chat.qwen.ai/?inputFeature=web_dev

@ai_machinelearning_big_data

#qwen #codegenerator #online

Please open Telegram to view this post

VIEW IN TELEGRAM

27.1K viewsedited 14:47

Machinelearning

Media is too big

VIEW IN TELEGRAM

✔️

Тенденция регулирования ИИ меняется: техгиганты переходят от «стремления к регулированию» к «отказу от регулирования».

Сэм Альтман, генеральный директор OpenAI, на слушаниях в Сенате заявил, что государственное одобрение для запуска мощных ИИ-систем губительно для технологического лидерства США. Это резкий разворот позиции после его же призывов к созданию регуляторного агентства два года назад. Теперь акцент сместился: вместо предупреждений об «экзистенциальных рисках» ИИ топ-менеджеры и власти требуют ускорить разработки, чтобы обогнать Китай.

OpenAI не одинока в резком смене курса: Google DeepMind отказался от запрета на военные ИИ-проекты, а Microsoft и компания Марка Цукерберга сняли ограничения на сотрудничество с армией.
washingtonpost.com

✔️

Nvidia адаптирует чип H20 для Китая, чтобы обойти экспортный контроль США.

Nvidia планирует выпустить упрощенную версию чипа H20 для китайского рынка уже в июле. Модификация связана с ужесточением экспортных ограничений США, которые заблокировали поставки оригинального чипа без специальной лицензии. Новый вариант H20 получит значительно урезанную память и другие технические ограничения, но позволит Nvidia сохранить позиции на ключевом рынке, где за прошлый год компания заработала $17 млрд.

По данным инсайдеров, китайские клиенты Tencent, Alibaba и ByteDance уже активно интересовались чипом, нарастив заказы до $18 млрд только с начала года. Глава Nvidia Дженсен Хуанг недавно посетил Пекин, подчеркнув стратегическую важность региона для компании.
reuters.com

✔️

Google инвестирует в 3 площадки для развития ядерной энергетики в США.

Google расширяет свое участие в энергетическом секторе, выделив финансирование стартапу Elementl Power для подготовки 3 площадок под современные ядерные проекты в США. Каждый объект планируют оснастить реакторами мощностью от 600 МВт, что должно помочь корпорации обеспечить стабильное энергоснабжение для своих дата-центров. Сумма вложений не раскрывается, но цель партнерства — ускорить ввод новых мощностей до 2035 года.

Elementl Power, основанная в 2022 году, позиционирует себя как разработчика «под ключ», предлагающего решения для клиентов, которые хотят доступ к чистой энергии.
world-nuclear-news.org

✔️

LegoGPT генерирует конструкции LEGO по текстовым описаниям.

Исследователи из Университета Карнеги-Меллон представили LegoGPT — нейросеть, которая превращает текстовые запросы в рабочие схемы сборки LEGO. Модель обучалась на 47 тысячах структур, что позволяет ей создавать оригинальные дизайны с нуля.

Система поэтапно подбирает блоки, проверяя их совместимость и устойчивость. Если деталь пересекается с другими или «висит в воздухе», LegoGPT откатывается к стабильному шагу и продолжает сборку. Результат всегда можно собрать руками или роботом. Код проекта доступен на GitHub.
tomshardware.com

✔️

Google создала Gemini Nano для защиты от мошенничества в реальном времени.

Google усилила борьбу с онлайн-мошенничеством, интегрировав модель Gemini Nano в браузер Chrome. Технология работает прямо на устройстве, анализируя сайты в режиме реального времени и блокируя фишинговые страницы до того, как пользователь успеет ввести данные.

В Android-версии Chrome появились ИИ-уведомления: если система заподозрит спам в push-сообщениях, предложит отписаться или заблокировать. Аналогичные алгоритмы теперь сканируют звонки и SMS — Gemini Nano распознает подозрительные шаблоны, даже если схема новая.
blog.google

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

25.6K views07:35

Machinelearning

🌟

ZeroSearch: Обучение языковых моделей поиску без реальных поисковиков.

ZeroSearch — фреймворк на базе RL от Alibaba, который учит языковые модели искать данные, вообще не подключаясь к реальным поисковым системам.

Пайплайн ZeroSearch начинается с тонкой настройки (SFT): модель учат генерировать документы, похожие на вывод реального поисковика. Через промпты вида «создай пять полезных/мусорных документов» LLM осваивает 2 режима: релевантные ответы с правильными фактами и «мусор» с случайной информацией.

Дальше в дело вступает RL. Модель-агент взаимодействует с этим «виртуальным поисковиком»: сначала рассуждает в тегах <think>, затем генерирует поисковые запросы через <search>, а получив смоделированные документы, формирует окончательный ответ в <answer>.

Сквозь весь процесс происходит поэтапное усложнение. В начале тренировки 90% документов чистые, чтобы агент освоил базовую логику. С каждым шагом доля шума растет по специальной формуле: через 200 итераций вероятность получить бесполезный документ увеличивается вчетверо.

Это заставляет модель учиться фильтровать информацию даже в условиях хаоса. Чтобы избежать «смешивания» собственных выводов агента и сгенерированных документов, в градиентах маскируются токены чужих ответов — так фокус остается на улучшении стратегии поиска, а не на подгонке под шум.

На выходе получается автономный агент, который не просто ищет, но и учится когда искать, как формулировать запросы и что игнорировать. И все это без единого реального API, только симуляция и математика.

Итоги экспериментальных тестов выглядят позитивными. На датасете NQ ZeroSearch с моделью Qwen-2.5-7B-Instruct показала 43.24% точности (EM), оставляя позади Search-R1 с его 41.46%, хотя последний использует реальный Google. Для многосложных вопросов в HotpotQA разрыв еще заметнее: 29.21% против 34.55% у конкурента.

Но главное, 14B-версия модели превосходит живой поисковик по среднему показателю на 33.97% против 32.47% у Google. Интересно еще и то, как масштаб влияет на результат: 3B модель дает 33.97% точности, 7B — 38.61%, а 14B — уже 40.54%.

▶️ На Huggingface опубликованы Simulation модели c 3, 7 и 14 млрд. параметров, заточенные под имитацию работы поисковых систем для фреймворка ZeroSearch. Их назначение - генерировать документы двух типов:

🟢Релевантные (содержат точные ответы на запросы);

🟠Зашумленные (включают нерелевантный текст, ошибки или отвлеченные факты).

⚠️ В промпте к этим моделям необходимо добавить метки [useful] или [noisy] . В инференсе модель возвращает 5 документов заданного типа.

🔜

Готовые модели на базе Qwen2.5 и Llama2.5 с ZeroSearch доступны в этой коллекции

🟡

🟡

🟡

Набор Simulation моделей

🟡

Коллекция обученных моделей

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #ZeroSearch #Alibaba

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

24.8K views11:01

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 NVIDIA научили гуманоидных роботов двигаться как люди — прямо из симуляции в реальный мир !

Джим Фан (Директор по ИИ в NVIDIA) рассказал, что их команда добилась впечатляющего результата: роботы научились ходить и ориентироваться в пространстве без обучения в реальном мире.

Всё обучение прошло в симуляции, и после этого роботы сразу были отправлены на выполнение задач в открытом пространстве.

🌟

Что особенно впечатляет:

➡️

Обучение, которое заняло бы 10 лет в реальности, было сжато всего в 2 часа симуляции.

✔️

Как это возможно:

- Нет физических ограничений. В симуляции робот может падать и вставать хоть миллион раз без поломки. В реальности он бы ломался.

- Ускорение времени. В симуляции нет ограничений «реального времени» — можно крутить процесс с любой скоростью, насколько позволяет железо.

- Параллельное обучение. Можно сразу запускать много виртуальных роботов и собирать опыт с них всех одновременно.

Для обучения не понадобились гигантские модели -всего 1.5 миллиона параметров (не миллиардов!) хватило, чтобы смоделировать «подсознательную механику» движения человеческого тела.

Очень мощный шаг для развития embodied AI и робототехники 🚀

➡️

Полное выступление

@ai_machinelearning_big_data

#ai #robots #nvidia #future

Please open Telegram to view this post

VIEW IN TELEGRAM

23.0K viewsedited 15:37

Machinelearning

🔥

9 бесплатных курсов c HuggingFace по искусственному интеллекту!

➡️Узнайте, как обучать, настраивать и развертывать большие языковые модели с помощью HuggingFace Transformers.
https://huggingface.co/learn/llm-course/chapter1/1

➡️

Курс по AI-агентам
Создавайте инструменты с многоэтапным мышлением, используя LangChain и HF.
https://huggingface.co/learn/agents-course/unit0/introduction

➡️

Курс по глубокому обучению с подкреплением (Deep RL)
Научите агентов принимать решения и учиться на основе окружающей среды.
https://huggingface.co/learn/deep-rl-course/unit0/introduction

➡️

Курс по компьютерному зрению
Изучите как работает OCR, сегментация и классификация изображений с моделями HuggingFace.
https://huggingface.co/learn/audio-course/chapter0/introduction

➡️

Курс по работе с аудио
Применяйте трансформеры к аудио: распознавание речи, тегирование музыки и синтез речи.
https://huggingface.co/learn/audio-course/chapter0/introduction

➡️

Курс по машинному обучению для игр
Узнайте, как ИИ меняет разработку игр: от поведения NPC до генерации контента.
https://huggingface.co/learn/ml-games-course/unit0/introduction

➡️

Курс по машинному обучению для 3D
Работайте с 3D-данными, такими как облака точек и сетки, на стыке графики и ML.
https://huggingface.co/learn/ml-for-3d-course/unit0/introduction

➡️

Курс по диффузионным моделям
Погрузитесь в технологию, лежащую в основе DALL·E и Stable Diffusion, и научитесь генерировать изображения.
https://huggingface.co/learn/diffusion-course/unit0/1

➡️

Кулинарная книга по открытому ИИ (Open-Source AI Cookbook)
Коллекция практических ноутбуков от реальных разработчиков ИИ — учитесь, копируйте код и создавайте свои проекты. https://huggingface.co/learn/cookbook/index

@ai_machinelearning_big_data

#free #courses #opensource #huggingface

Please open Telegram to view this post

VIEW IN TELEGRAM

36.8K viewsedited 09:00

Machinelearning

Please open Telegram to view this post

VIEW IN TELEGRAM

22.4K viewsedited 06:36

Machinelearning

🌟

Pocket Flow: минималистичный фреймворк для LLM в 100 строках кода

Популярные фреймворки превращают простые задачи в квест по разгадыванию чужого кода. Бесконечные обертки, конфликты версий, устаревшая документация… Всё это не просто раздражает, это замедляет разработку. После года борьбы с перегруженными инструментами по типу LangChain, разработчик из Microsoft Research Zachary Huang посвятил свободное время созданию Pocket Flow — фреймворка, который уместил всю магию LLM в 100 строк кода.

Pocket Flow предлагает радикально иной подход: минимализм. В основе — идея, что любой LLM-пайплайн можно представить как граф из узлов и переходов. Никаких скрытых слоёв, только логика и прозрачность.

Чтобы разобраться как работает Pocket Flow, представьте кухню, где каждый узел — зона для готовки.

BaseNode выполняет три шага: подготовка (собрать данные), выполнение (обработать запрос), постобработка (сохранить результат).

Flow управляет «рецептом»: решает, куда передать управление дальше. Все взаимодействие происходит через общее хранилище данных — как стол, на котором лежат ингредиенты для всех поваров.

Пример? Допустим, вы строите поискового агента. Создаёте узлы: DecideAction (решает, нужен ли поиск), SearchWeb (ищет в интернете), AnswerQuestion (формирует ответ). Связываете их в граф, где решение одного узла определяет следующий шаг. Если модель не знает ответ тогда запускается поиск, результаты добавляются в контекст, и цикл повторяется. Все это — пара сотен строк кода поверх ядра Pocket Flow.

Главное преимущество Pocket Flow - свобода. Нет привязки к конкретным API, подключайте любые модели, даже локальные. Нет зависимостей: ваш проект остается «легким», а интерфейсы не ломаются после обновлений. Хотите кеширование запросов или потоковую обработку? Реализуйте сами, без борьбы с чужими абстракциями.

Безусловно, у минимализма есть цена: вы не получите готовых решений для каждой задачи. Но именно в этом сила Pocket Flow. Он дает контроль и понимание процесса, а не готовый, но черный ящик.

Если вы устали от фреймворков-монстров и хотите начать с чистого листа — загляните в репозиторий Pocket Flow. Там есть примеры агентов, RAG-систем и мультиагентных сценариев.

📌Лицензирование: MIT License.

🟡

🟡

Документация

🟡

Сообщество в Discord

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #Framework #Github

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

26.4K views10:20

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🟢

Google: 25% нашего кода пишет ИИ

🟢

Microsoft: У нас 30% кода написано ИИ!

🟡

Anthropic: Подержи мое пиво — «Около 80–90% используемого нами кода сгенерировал Claude.

Некоторые задачи всё ещё требуют написания кода человеком — особенно те, что связаны со сложным рефакторингом или если есть определенные предпочтения по стилю/ архитектурным решениям.» - Лид-инженер Anthropic Boris Cherny.

Может поэтому они перестали выпускать новые модели?

@ai_machinelearning_big_data

#Anthropic #interview

Please open Telegram to view this post

VIEW IN TELEGRAM

19.2K views12:49

Machinelearning

✔️

Qwen официально выпустили квантованные версии Qwen3!

Теперь Qwen3 можно развернуть через Ollama, LM Studio, SGLang и vLLM — выбирайте удобный формат (GGUF, AWQ или GPTQ) для локального деплоя.

Все модели доступны в коллекции Qwen3 на Hugging Face и ModelScope:

➡️

Hugging Face: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

➡️

ModelScope: https://modelscope.cn/collections/Qwen3-9743180bdc6b48

@ai_machinelearning_big_data

#Qwen

Please open Telegram to view this post

VIEW IN TELEGRAM

26.0K views12:54

2025/07/08 10:48:26
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>