Telegram Web
🎯 Hugging Face показали, как ускорить обучение мультимодальных моделей, устранив главное узкое место — неэффективную загрузку данных.

Они представили Multimodal Data Pipeline (MMDP) — мощный, но простой пайплайн, который решает проблему простоя GPU из-за паддинга и медленного I/O.

Вот как это работает:

1. Визуализация данных — сначала анализируются длины текстов и структура мультимодальных примеров.
2. Constrained Padding — вместо бездумного паддинга, обрезаются аномально длинные примеры.
3. Packing как bin-packing — батчи собираются по максимальному числу токенов, а не по фиксированному количеству примеров.
4. Multimodal-aware batching — учитывается и число изображений в батче.
5. ConstantLengthDataset — кастомный класс с producer-consumer очередями и плотной упаковкой без паддинга.

💡 Результат — более плотные батчи, меньше токенов вхолостую, выше эффективность обучения.

Исходники и туториал:
📌 https://huggingface.co/blog/mmdp
📌 https://github.com/ariG23498/mmdp

Если ты тренируешь VLM или LLM с изображениями — это must-have.

@data_analysis_ml
11👍3🔥2
ML-инженеры, какая встреча!

19 июля в Москве снова пройдет Turbo ML Conf от группы Т-Технологий. В этом году — еще масштабнее!

В программе 5 тематических потоков, продовые кейсы и технологии.

Среди спикеров — эксперты Т-Банка, Сбера, Яндекса и других ведущих специалистов.

Будет много нетворкинга, прикладные доклады, настольные игры, лимитированный мерч. Участие бесплатное.

Успейте оставить заявку
7👍4🤣1
🧠 Хочешь сделать свой ИИ-стартап? Начни с базы!

Microsoft запустила бесплатный курс по MCP — это про то, как подключать нейросети к реальным приложениям: сайтам, чатам, бэкендам и не только.

📚 Что внутри:
• 11 модулей с теорией и практикой
• Примеры кода на разных языках
• Всё можно пройти на русском

Идеально, если хочешь научиться использовать ИИ не на уровне «поиграться», а реально внедрять.

👉 Курс бесплатный — забираем здесь
6👍31🔥1
Google DeepMind расширяет линейку своих моделей Gemma

Представлены две новинки:

✔️ T5Gemma — новая жизнь для классической архитектуры encoder-decoder от Google DeepMind

Большинство современных LLM используют архитектуру *decoder-only*, но Google решила напомнить о силе классической схемы *encoder-decoder*, особенно эффективной в задачах вроде перевода, и QA.

Это новая линейка LLM, в которой уже обученные модели Gemma 2 (decoder-only) превращаются в мощные encoder-decoder через метод адаптации. Такой подход даёт сразу два бонуса:
- сохранение знаний из Gemma 2;
- гибкость и эффективность encoder-decoder архитектуры.

Особенности:
- Обновлённая версия Gemma 2 с архитектурой encoder-decoder.
- Отличный баланс между качеством и скоростью инференса (по сравнению с decoder-only).
- Доступны чекпойнты: Small, Base, Large, XL, 2B-2B, 9B-9B, 9B-2B.
- Достигает большей точности, не жертвуя временем инференса.
- Открывает путь к “небалансным” конфигурациям, когда, например, энкодер мощный, а декодер компактный.


✔️ MedGemma — открытые мультимодальные модели для медицины от Google DeepMind


🟡 MedGemma 4B Multimodal
- 64.4% на MedQA — одна из лучших моделей в классе <8B.
- В слепом тесте: 81% отчётов по рентгенам, сгенерированных MedGemma 4B, были признаны квалифицированным рентгенологом достаточно точными для принятия медицинских решений.
- Также показывает SOTA-уровень на задачах медицинской классификации изображений.

🟢 MedGemma 27B (Text + Multimodal)
- 87.7% точности на MedQA — почти как у DeepSeek R1, но в 10 раз дешевле по инференсу.
- Конкурирует с гораздо более крупными моделями на задачах:
- Определение диагноза;
- Интерпретация ЭМК (электронных медкарт);
- Комбинированное понимание текста и изображений.

Открытые модели — можно кастомизировать, дообучать и использовать локально.

🟡T5gemma: https://developers.googleblog.com/en/t5gemma/
🟡MedGemma: https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/


#GoogleDeepMind #ai #ml #llm #med
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥5👍1
Forwarded from Machinelearning
🚨 Grok 4 — новая мощная модель от xAI

📊 Лидер на бенчмарках:
- Решает математику AIME25 на 100% — не ошиблась ни в одной из самых сложных задач
- ARC-AGI-2: 15.9% против 8.6% у прошлых лидеров — почти в два раза выше, чем у Claude 4 Opus.

🧠 Главное достижение — Humanity’s Last Exam:
- С максимальными ресурсами и включённой поддержкой внешних инструментов — 44.4% (а на текстовой части даже 50.7%).
- Даже без внешних инструментов — всё ещё лучше всех: 25.4%, у ближайшего конкурента (Gemini 2.5 Pro) — 21.6%.
- Почти половина презентации была посвящена именно этому тесту.

🛠 Что под капотом:
- Архитектура — та же, что у Grok 3.
- Изначально это должна была быть версия Grok 3.5, но решили увеличить объём обучения.
- На стадию логического обучения (reasoning) потратили в 10 раз больше ресурсов.
- Теперь объём дообучения через RL (reinforcement learning) сопоставим с основным обучением.
- Важно: теперь модель сразу обучают использовать внешние инструменты во время RL, как это делают в OpenAI (в o3 и o4-mini).

📉 Слабые места:
- Мультимодальность пока на слабом уровне: большинство тестов — чисто текстовые, и на HLE модель показывает просадку.
- Маск пообещал, что в следующей версии это исправят.

📏 Контекст увеличили до 256k токенов.

💬 API уже запущен:
- Стоимость — как у Grok 3 и Claude Sonnet.
- Но из-за "разговорчивости" на практике модель по цене ближе к Claude Opus.
- Grok 4 Mini не выпустили — жаль, ведь Grok 3 Mini была отличной за свою цену.

🏭 Инфраструктура xAI растёт стремительно:
- Через 3–4 недели стартует тренировка видеомодели на 100k+ GPU GB200.
- В июне компания привлекла $10 млрд: половина — инвестиции, половина — в долг.
- В планах — новое расширение дата-центра Colossus.

📌 Grok 4 — это не просто обновление, а важный шаг вперёд в развитии reasoning-моделей и интеграции с внешними возможностями.

Тестим здесь.

@ai_machinelearning_big_data

#grok
9👍2🔥2
2025/07/10 08:14:51
Back to Top
HTML Embed Code: