Telegram Web
Forwarded from Machinelearning
🌟 V-Triune от MiniMax: RL для VLM.

V-Triune - фреймворк с новым методом обучения VL-моделей, через единый алгоритм подкрепления.

В отличие от традиционных методов трейна VLM, сосредоточенных на отдельных задачах вроде решения математических задач или обнаружения объектов, V-Triune обучает модели одновременно работать с рассуждениями и восприятием. RL в V-Triune действует как механизм «настройки» уже заложенных в модель возможностей, а не добавляет новые навыки.

Это достигается за счет 3 ключевых компонентов: форматирования данных на уровне выборок, вычисления наград через специализированные верификаторы и мониторинга метрик по источникам данных.

Например, динамическая награда IoU адаптирует пороги точности для обнаружения объектов — сначала стимулируя базовое понимание, а затем требуя высокой точности.


Тестирование проводилось на бенчмарке MEGA-Bench из440 задач — от анализа графиков до OCR. Экспериментальные модели Orsta (7B и 32B параметров), обученные с V-Triune, показали прирост производительности до +14,1% по сравнению с базовыми версиями.

На задачах восприятия (обнаружение объектов в COCO), улучшения достигли +12,17% для mAP@50. Для математических задач (MathVista) результаты выросли на 5%, а в OCR — на 1-2%. При этом система стабильно работала даже при обучении на смешанных данных, что косвенно подтвердило ее универсальность.

Minimax открыли (но пока не загрузили его в репозиторий) код V-Triune и модели Orsta:

🟢Orsta-32B-0326 - стабильная версия на более поздней QwenVL-2.5-32B;
🟠Orsta-32B-0321 - версия с замороженным ViT на базе QwenVL-2.5-32B-0321;
🟢Orsta-7B - на базе Qwen2.5-VL-7B-Instruct.

⚠️ В версии 0321 попытки совместного обновления визуального и языкового модулей приводили к взрыву градиентов, поэтому ViT пришлось заморозить. В 0326, благодаря исправлениям в архитектуре, RL-тренинг стал стабильнее. 0326 рекомендуется для задач, где критична точность и надежность форматов ответов.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #RL #Framework #MiniMax
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2🔥2
🧠 SkyRL — как обучить ИИ-агента реально думать и действовать

[SkyRL](https://github.com/NovaSky-AI/SkyRL) — это open-source фреймворк от NovaSky-AI, который помогает обучать языковые модели (LLM) не просто отвечать, а действовать. Он использует обучение с подкреплением (RL) в задачах, где агенту нужно выполнять несколько шагов и вызывать инструменты, как это делают умные ассистенты.

🔧 Что делает SkyRL:

Учит ИИ работать поэтапно: планировать, думать, использовать поиск, писать SQL и т. д.
Работает с внешними инструментами (Google, база данных, консоль и т.п.)
Делает обучение быстрее за счёт асинхронных запусков
Поддерживает удалённое обучение — можно запускать 100 агентов на одном сервере

---

### 📊 Что уже получилось:

🧩 SWE‑Bench (задачи из GitHub-реп):
Модель SkyRL-14B подняла точность с 18 % до 21.6 %
SkyRL-7B — с 11 % до 14.6 %

🧠 Text-to-SQL (написание SQL-запросов по описанию):
SkyRL-SQL‑7B, обученная всего на 653 примерах, обошла GPT‑4o и o4-mini на бенчмарке Spider.

🛠 Что внутри:

• Язык: Python
• Лицензия: Apache 2.0 — можно использовать в проде
• Поддержка CI/CD
• Интеграция с OpenHands для запуска на кластерах

👨‍💻 Кому подойдёт:

- Тем, кто делает умных агентов, которые решают задачи через инструменты
- Исследователям в области RL + LLM
- Разработчикам, которые хотят обучить модель на своих задачах — от SQL до программирования

SkyRL — это шаг к ИИ, который не только отвечает, но и решает задачи как настоящий помощник.

🔗 https://github.com/NovaSky-AI/SkyRL
5🔥4👍3
🧬 Представлен **Osmosis Structure 0.6B** — миниатюрная, но умная LLM c научным уклоном

Это часть семейства Osmosis — моделей, созданных специально для работы со знаниями и структурой в научных и технических текстах.

📦 Характеристики:
• Размер: всего 0.6B параметров — работает локально, быстро, экономно
• Область применения: наука, медицина, инженерия
• Обучена на текстах с высокой плотностью фактов и логики
• Поддерживает диалоговый режим, генерацию гипотез и объяснений

Почему это важно:
В эпоху гигантских моделей Osmosis Structure 0.6B — пример того, как маленькая LLM может быть точной и специализированной, а не просто "универсальной".

📌 Доступна через Ollama — можно запустить на локальной машине без интернета.

https://ollama.com/Osmosis/Osmosis-Structure-0.6B

@machinelearning_ru
6
🚀 Введение в Apache Hadoop для обработки больших данных на Java

Если вы хотите освоить обработку больших объемов данных с помощью Java, статья «Introduction to Apache Hadoop for Big Data Processing in Java» от Muthu Annamalai на BlackSlate станет отличным стартом.

В статье рассматриваются основные компоненты Hadoop:

HDFS (Hadoop Distributed File System): распределенная файловая система, обеспечивающая надежное хранение больших объемов данных.

MapReduce: модель программирования для параллельной обработки данных.


Также приводится пример реализации задачи WordCount с использованием Java MapReduce, что помогает понять, как применять Hadoop на практике.

Для тех, кто стремится углубиться в мир обработки больших данных с использованием Java, эта статья предоставляет полезные знания и практические примеры.

#BigData #Java #Hadoop #MapReduce #HDFS #BlackSlate

https://www.blackslate.io/articles/introduction-to-apache-hadoop-for-big-data-processing-in-java
6👍3🔥1
Андрей Карпаты выложил небольшой гайд по моделям ChatGPT


-o3 — лучшая для сложных задач. Эта модель рассуждений намного сильнее, чем 4o. Поможет с анализом данных и научными статьями. Карпаты использует эту модель в 40% случаев.

- GPT-4o — быстрая модель для повседневного использования. Карпаты также использует ее в 40% запросов.

- GPT-4.1 — хороший выбор при вайб-кодинге.

- GPT-4.5 — когда вам нужно покреативить или сгенерировать текст.

- Deep Research — лучший инструмент для исследований. Нужен, если хочется глубоко разобраться в какой-то теме.
7👍4👎2🔥2
🔍 В Яндекс Поиске появились технологии Алисы: теперь он рассуждает в ответ на вопрос и генерирует контент

Поиск Яндекса обновился. Там появился режим рассуждений, возможность генерировать контент, получать развёрнутые ответы, и помогать с выбором товаров. Всё это — благодаря объединению с технологиями Алисы, которые унаследовали и расширили возможности Нейро.

Что поменялось:
— Новые ответы Алисы: готовая небольшая статья с картинками, видео и ссылками на источники.
— Можно попросить сгенерировать текст или картинку прямо в поисковой строке — например, по запросам “напиши” или “нарисуй”.
— Появился режим рассуждений: для сложных задач, где важно углубиться в тему. В этом режиме Алиса тратит больше времени на анализ информации, задействует больше источников и может дать ответ в виде таблицы. Пользователь может посмотреть, как она подходит к задаче и какие выводы делает.
— Пользователи Браузера теперь могут задавать Алисе вопросы не только в Поиске, но и по открытой веб-странице. Она проанализирует текст на сайте и даст ёмкий ответ со ссылками на конкретные фрагменты.

Эти большие обновления — результат работы сразу нескольких команд. Команда Яндекс Поиска создает LLM технологии в поиске, проектирует интерфейсы, создает инфраструктуру, позволяющую сервису работать бесперебойно 24/7.

Сейчас перед командой стоят новые амбициозные задачи, поэтому она расширяется и ищет:
Старшего LLM-разработчик в Нейро
ML-разработчика

Если интересно создавать продукт, которым ежедневно пользуются десятки миллионов людей, и развивать ИИ на мировом уровне — ищите вакансии выше.

Реклама. ООО "Яндекс". ИНН 7736207543
🆕 ИИ для генерации речи, который работает прямо в браузере — без установки и без отправки данных в облако

Теперь можно поговорить с ИИ-ассистентом, не устанавливая ничего и не передавая данные на сервер. Всё работает прямо в окне браузера.

🔐 Приватность: всё остаётся на вашем устройстве
💸 Бесплатно
Быстро — использует ускорение через WebGPU
📦 Не требует установки — просто открываете сайт

🔍 Как это устроено:
• Silero — определяет, когда вы начали говорить
• Whisper — распознаёт вашу речь
• SmolLM2 — отвечает на вопрос
• Kokoro — озвучивает ответ
• Всё работает через Transformers.js и ONNX Runtime Web

🔗 Попробовать и посмотреть код:
https://huggingface.co/spaces/webml-community/conversational-webgpu
3👍1
🔊 Ke-Omni-R-3B
👉 Открытая модель, которая понимает аудио и отвечает на вопросы по аудио.
🏆 Лидирует на бенчмарках аудиорассуждений.
📌 Построена на базе Qwen 3B.

🎥 Omni-R1
👉 Модель для видеоанализа, которая "смотрит" на видео и рассуждает на уровне каждого пикселя.
⚔️ Уже конкурирует с лучшими проприетарными решениями.
📌 Построена на Qwen 7B.

💡 Qwen2.5 - основа для мультимодального ИИ: текст + аудио + видео.
Если ты делаешь проекты в этой сфере — обязательно посмотри, что уже делают на базе Qwen.

#Qwen #AI #Multimodal #HuggingFace #OpenSource #LLM

📎 Модель: https://huggingface.co/KE-Team/Ke-Omni-R-3B
3👍1
Работаете в Data Science и хотите стать Middle+? Проверьте свои знания быстрым тестом — и узнайте, готовы ли к следующему шагу!

🔥 ПРОЙТИ ТЕСТ: ссылка

Пройдите тест и проверьте, готовы ли вы к повышению квалификации на курсе «Machine Learning. Advanced». В программе — AutoML, Байесовские методы, обучение с подкреплением и многое другое. Вы научитесь деплоить модели, собирать end-to-end пайплайны и претендовать на позиции Middle+/Senior ML Engineer.

🎁 Успешное прохождение теста — ваш пропуск к записям открытых уроков и скидке на большое обучение.

👉 Оцените свой уровень прямо сейчас: ссылка

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🎤 Вышло большое интервью с Сундаром Пичаи CEO Google и Alphabet У Лекса Фридмана, в котором обсуждаются:

Темы разговора:

- Детство Сундара и его путь из Индии в топ-технологии мира

- Лидерство: стили, трудные решения, советы молодым

- Глобальное влияние ИИ: от Veo 3 до AGI (искусственного общего интеллекта)

- Технологии будущего: Google Beam, XR‑очки, Chrome, Android

- Философия, масштабируемость, программирование, и даже P(doom) — вероятность катастрофы от ИИ

🔥 Плюс: Google только что анонсировал новую модель Gemini 2.5 Pro, которая заняла #1 место на LM Arena

📺 Длительность — более 2 часов, полная версия доступна на X и других платформах (ссылка в комментарии)

🧭 Интересно посмотреть, если хотите:

- Понять мышление топ-менеджера Big Tech

- Услышать прогнозы по AI, видео, браузерам, AGI

- Заглянуть в будущее Google глазами его руководителя

https://www.youtube.com/watch?v=9V6tWC4CdFQ
👍1
🧠 DeepSeek представила R1-0528-Qwen3-8B — один из самых умных 8B LLM на сегодня

Новая модель от DeepSeek — это дистиллят флагманского R1-0528, обученный на примерах рассуждений (Chain-of-Thought).
Цель — сделать мощные способности reasoning-движка R1 доступными на устройствах с ограниченными ресурсами.

📊 Итоги тестов:
• Набрала 52 балла в Artificial Analysis Intelligence Index
• Немного обходит Qwen3 8B от Alibaba, опережая на 1 балл
• Но в реальных задачах разница между ними вряд ли будет заметна

🔍 В отличие от модели Alibaba, DeepSeek не поддерживает управление "включением рассуждения" во время инференса — поведение модели фиксировано.

📈 Прогресс за 5 месяцев:
По уровню reasoning эта 8B-модель теперь соответствует дистиллятам Qwen2.5 32B, представленным ещё в январе.
Фактически, это тот же интеллект, но в 4 раза меньшем размере.

⚙️ Производительность:
• Модель весит всего 8B — это 1.2% от полной DeepSeek R1 (671B)
• Активирует 21.6% параметров оригинального R1 на токен
• Работает в разы быстрее и требует меньше памяти (~16ГБ в BF16)

https://artificialanalysis.ai/models/deepseek-r1-qwen3-8b
🔥51👍1
Forwarded from Machinelearning
🏆 NVIDIA Parakeet V2 возглавила рейтинг ASR-моделей на Hugging Face

Новая модель Parakeet-TDT-0.6B-V2 достигла рекордной точности распознавания речи6.05% Word Error Rate на Open ASR Leaderboard от Hugging Face.

🦜 Parakeet V2 выводит автоматическое распознавание речи (ASR) на новый уровень:

Молниеносный инференс — RTFx 3386 (в 50 раз быстрее аналогов)
🔍 Поддержка необычных сценариев:
• Распознавание песен в текст (song-to-lyrics)
• Форматирование чисел и временных меток
• Высокоточная транскрибация

📌 Лицензирование: CC-BY-4.0

🔗 Leaderboard: huggingface.co/spaces/hf-audio/open_asr_leaderboard
🔗 Демо: huggingface.co/nvidia/parakeet-tdt-0.6b-v2
🔗 Попробовать: build.nvidia.com/explore/speech

@ai_machinelearning_big_data


#NVIDIA #ASR #SpeechRecognition #Parakeet #AIaudio
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2🥰1
Читаем статьи в 2020 году vs
Читаем статьи в 2025 году
😁9👍72🔥2
📦 Kubernetes for ML Engineers — практическое руководство по продакшну ML-моделей

[Paulescu/kubernetes-for-ml-engineers](https://github.com/Paulescu/kubernetes-for-ml-engineers) — это открытое и очень доступное пошаговое руководство по использованию Kubernetes для машинного обучения. Проект помогает ML-инженерам перенести свои модели из Jupyter-блокнота в стабильное, масштабируемое продакшн-окружение.

🚀 Что внутри:
• Как собрать Docker-образ с моделью
• Как задеплоить его в кластер
• Примеры с REST API для инференса
• Конфигурация Pod'ов, Service'ов, Ingress
• Хостинг моделей с autoscaling
• Набор манифестов YAML — можно адаптировать под себя

🧠 Особенно полезно:
• ML-инженерам без опыта DevOps
• Для обучения Kubernetes через реальные ML-задачи
• Для продакшн-деплоя моделей с минимальными усилиями

📂 Всё по делу: чисто, практично и без лишней теории. Просто бери и запускай.

🔗 GitHub: github.com/Paulescu/kubernetes-for-ml-engineers

#kubernetes #mlops #machinelearning #devops #docker #opensource
👍21🔥1
Gemma 3n теперь на десктопах! 🚀

🤗 Работает на Mac, Windows, Linux и устройствах Интернета вещей (IoT)
🔥 Модели на 2B и 4B параметров
🧠 Использует новую библиотеку LiteRT-LM

GitHub
👍62🔥2👎1
Forwarded from Machinelearning
🌟 NVIDIA cuOpt: GPU-решатель для оптимизации решений.

NVIDIA опубликовала в открытом доступе свой проект cuOpt. Это набор инструментов оптимизации, который использует ресурсы и возможности GPU для решения сложных задач линейного программирования, маршрутизации и логистики.

cuOpt помогает находить эффективные решения для проблем с миллионами переменных, где традиционные методы терпят крах., превращая «нерешаемые» задачи в реальные решения, без жертвования масштабом или скоростью. Это, своего рода, «турбокомпрессоре» для задач, где время и точность критически важны, от доставки товаров до расписаний производства.

cuOpt состоит из C++-движка и API (Python, C и другие), которые работают как обертки, которые дают возможность гибко интегрировать библиотеку в разные проекты.

Для задач маршрутизаций (TSP, VRP, PDP) cuOpt генерирует начальные решения, а затем улучшает их итеративно, используя эвристические алгоритмы. Это не «лобовое» вычисление всех вариантов, а умный поиск, который экономит ресурсы и время.

Методы работы с линейным программированием (LP) и смешанными целочисленными задачами (MILP) тоже уникальны. Для LP применяется PDLP — алгоритм первого порядка, который использует градиентный спуск и работает на GPU, альтернативно запускаясь на CPU с симплекс-методом.

Смешанное целочисленное программирование - это метод математической оптимизации, позволяющий решать задачи с использованием смеси непрерывных переменных (которые могут иметь любое значение, включая десятичные и дробные), дискретных переменных и двоичных переменных.


В MILP немного сложнее: на GPU выполняются эвристики для поиска допустимых решений (локальный поиск, «feasibility pump»), а CPU занимается ветвлениями и границами, улучшая оценку. Решения между GPU и CPU обмениваются в реальном времени, создавая гибридную систему.

▶️ NVIDIA cuOpt предлагает несколько вариантов развертывания, адаптированных под разные задачи: pip, conda или готовый контейнер Docker / NSG.

Еще поддерживаются (с минимальным рефакторингом) инструменты AMPL и PuLP, с помощью которых сценарии использования cuOpt значительно расширяются.

В репозитории проекта разработчики собрали примеры и Jupyter-ноутбуки, которые можно запустить локально или в облачных сервисах: Google Colab (с выбором GPU-среды) или NVIDIA Launchable.


📌 Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Документация
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DS #NVIDIA #CuOPT
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3
Вышел Claude Code SDK.

Теперь вы можете создавать десятки небольших AI-скриптов для автоматизации и запускать их, когда понадобится.
6👍4👎2🔥2🤩2
🎓 Хочешь разобраться в MCP (Model Context Protocol)? Вот с чего начать:

1️⃣ Курс от Hugging Face
Пошаговое введение в MCP и как он работает внутри LLM-экосистем
huggingface.co/learn/mcp-course

2️⃣ Курс от Microsoft
Практический гайд для новичков — с кодом, примерами и понятным объяснением
github.com/microsoft/mcp-for-beginners

3️⃣ Workshop
Онлайн-интенсив "MCP Fundamentals" — 25 июня, регистрация уже открыта
epicai.pro/events/workshop-mcp-fundamentals-2025-06-25

📦 MCP — это новый стандарт, который скоро будет везде: от агентов до LLM-интерфейсов. Самое время разобраться.

#MCP #AI #LLM #MachineLearning #Courses #DevTools
👍72🥰1
2025/07/12 18:27:12
Back to Top
HTML Embed Code: