Telegram Web
Forwarded from Machinelearning
🌟 NVIDIA Parakeet-tdt-0.6b-v2: ASR-модель с поддержкой временных меток.

NVIDIA представила новую модель автоматического распознавания речи (ASR) — Parakeet-tdt-0.6b-v2 c 600 млн. параметров для английского языка. Она не просто транскрибирует аудио в текст, но и распознает пунктуацию, капитализацию и временные метки с точностью до слова.

Модель устойчива к шумам и справляется даже с расшифровкой песен или чисел. Это достигнуто за счет обучения на данных, в которые включили «шумные» источники (YouTube, записи телефонных разговоров и уличные диалоги). Как отмечают авторы, RTFx-показатель равен 3380 (при батче 128), что позволяет использовать Parakeet для масштабных промышленных задач.

В основе Parakeet - гибридная архитектура. Она комбинирует скоростной кодировщик FastConformer с декодером TDT, который оптимизирован для транскрипции.

TDT - декодер, который предсказывает слова, звуки и их длительность. Вместо того чтобы проверять каждый кусочек аудиозаписи по порядку, TDT «перепрыгивает» через лишние сегменты, опираясь на прогноз времени, которое занимает текущий токен. Это сокращает вычисления, экономит время и при этом не теряется точность.


Fast Conformer — это переработанная архитектура Conformer, которая ускоряет распознавание речи за счет увеличения downsampling до 8x с помощью более легких сверток и упрощенных блоков, и замены стандартного внимания на комбинацию локального контекста и одного глобального токена.


Обучение Parakeet проводилось в 2 этапа: сначала на 128 GPU A100 с использованием псевдоразмеченных данных, а затем — на 500 часах человеческой транскрипции. Часть обучающего датасета пока недоступна публично, их NVIDIA обещает открыть после конференции Interspeech 2025.

Результаты на бенчмарке Open ASR впечатляют: средняя ошибка (WER) составляет всего 6.05% при greedy decoding без внешней языковой модели. Для сравнения, на чистом аудио из LibriSpeech WER составляет 1.69%, а сильном зашумлении (SNR 5) показатель не превышает 8.39%. В телефонии, где аудио сжимается через μ-law, потери в точности минимальны — всего 4.1%. По этим результатам, Parakeet-tdt-0.6b-v2 может стать универсальным инструментом для колл-центров или мобильных приложений.

Модель поддерживает форматы .wav и .flac с частотой 16 кГц и требует всего 2 ГБ оперативной памяти. Для интеграции разработчикам понадобится фреймворк NeMo от NVIDIA, он упрощает настройку под конкретные задачи.


📌Лицензирование: CC-BY-4.0 License.


🟡Модель
🟡Demo


@ai_machinelearning_big_data

#AI #ML #ASR #Parakeet #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Апскейлим ЮБОЕ видео до 8К (!) и 120 FPS — в редактор KREA завезли мощный апскейлер голливудского уровня от Topaz.

Фича вытянет любой шакал на голливудский уровень качества — дорисует кадры и поднимет разрешение.

Улучшаем свои видосы тут.
2👍1
🔍 Vespa — поисковая платформа для работы с векторами и ML-моделями в реальном времени.

Проект предлагает нестандартный подход к обработке данных: он объединяет полнотекстовый поиск, векторные операции и ML-инференс в едином конвейере.

🤖 GitHub

@bigdatai
👍5🔥2
✔️ Дорожная карта бесплатных курсов по машинному обучению 2025

В статье собраны 50 лучших бесплатных или условно-бесплатных курсов (сертификат может быть платным), разделённых по уровням:
*Вводный (Beginner) → Промежуточный (Intermediate) → Продвинутый (Advanced).*
После каждого описания приведена полная кликабельная ссылка.

➡️ Курсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥2🥰1
✔️ OpenAI запускает HealthBench.

OpenAI представила HealthBench - бенчмарк для тестирования ИИ-систем в сфере здравоохранения. Разработанный при участии 262 врачей из 60 стран, он включает 5000 реалистичных диалогов, имитирующих общение пациентов и медиков. Каждый сценарий оценивается по индивидуальным критериям, созданным экспертами: точность данных или ясность ответов.

Всего в бенчмарке 48 562 параметра оценки, что позволяет глубоко анализировать работу моделей. Особый упор сделан на надежность: даже один ошибочный ответ в медицине критичен. HealthBench включает подборки сложных кейсов (HealthBench Hard), где современные ИИ еще отстают. Все данные и методики уже доступны в GitHub-репозитории OpenAI .
openai.com
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥3
SageAttention — революция в скорости работы трансформеров

Исследователи из THU-ML представили инновационный метод ускорения attention-слоёв, который не требует изменения архитектуры моделей. Проект использует интеллектуальное 8-битное квантование матриц внимания, сохраняя при этом точность оригинальных моделей.

На новых GPU RTX 5090 решение показывает впечатляющие 2.7x ускорение по сравнению с FlashAttention-2. Технология уже интегрируется в популярные фреймворки, для тестирования достаточно заменить одну строку кода.

🤖 GitHub

@bigdatai
👍52
✈️ Apache Avro — универсальная система сериализации данных. Этот проект с открытым исходным кодом позволяет компактно упаковывать данные с сохранением схемы, что особенно ценно при работе с Kafka, Hadoop и другими системами потоковой обработки.

Инструмент выделяется кросс-языковой поддержкой и эффективным бинарным форматом, который минимизирует накладные расходы по сравнению с JSON или XML. Сейчас проект активно развивается: в CI-пайплайнах появилась поддержка ARM-серверов, а для разработчиков — devcontainers, ускоряющие старт работы с кодом.

🤖 GitHub

@bigdatai
2👍2
🧠 String‑Membrane‑Nets и фрактонные фазы через gauging симметрий
📝 arXiv:2505.13604 (май 2025)

Эта статья предлагает нетривиальный способ построения фрактонных фаз в 3+1D через механизмы gauging 1‑формных симметрий.

🔹 Что предложено?
Вместо традиционной конденсации p‑струн (p‑string condensation), авторы используют калибровку (gauging) 1‑формной симметрии. Это позволяет получить фрактонные фазы с контролируемыми свойствами, без приближений.

🔹 Основные итоги:
• Связь между 2+1D anyon condensation и 3+1D фрактонными фазами
• Построение string‑membrane‑net моделей — обобщение string-net на 3D
• Чёткая связь между field-theoretic и lattice описаниями
• Получение X‑Cube модели через gauging стекинга \(\mathbb{Z}_N\) gauge теорий

🔹 Почему это важно?
• Новый путь для создания устойчивых квантовых кодов и фрактонной материи
• Математически строгий и универсальный подход для генерации фрактонных возбуждений
• Расширение инструментов топологического фазового инжиниринга в 3D

🔬 Для кого это?
Физики, изучающие квантовые топологические фазы, исследователи квантовой информации и теоретики, работающие над фрактонными системами и higher-form symmetries.

📖 https://arxiv.org/abs/2505.13604
2👍1🔥1
Media is too big
VIEW IN TELEGRAM
Прогресс искусственного интеллекта поистине стремителен

#Veo3

@data_analysis_ml
3👍2🔥2
📊 Free LLM API Resources — бесплатные облачные модели для разработчиков. Для тех, кто хочет экспериментировать с LLM без затрат на API, появился исчерпывающий гайд по бесплатным ресурсам. В списке — десятки провайдеров с лимитами от 50 запросов в день до 1 млн токенов.

Из них можно выделить:
— Google AI Studio с Gemini 1.5 Flash (500 запросов/день)
— Mistral La Plateforme — доступ к Codestral и другим фирменным моделям
— Cloudflare Workers AI — 10k нейронов ежедневно для Llama 3 и Qwen

Есть и временные кредиты: $30 у Baseten, $10 у AI21 для Jamba. Главное правило не злоупотреблять, иначе бесплатные лимиты могут исчезнуть.

🤖 GitHub

@bigdatai
🔥32👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🖐 Apple решила проблему нехватки данных для имитационного обучения!

📦 Представляем EgoDex — крупнейший в мире датасет ловких действий человека:

• 829 часов видео от первого лица
• Синхронизированные 3D-позы рук
• 194 уникальные задачи манипуляции предметами

🎯 Почему это важно?
Имитационное обучение требует масштабных и реалистичных данных. EgoDex даёт ИИ возможность учиться у человека — видеть, как двигаются руки, и точно повторять действия.

🔬 Подходит для:
— Робототехники
— AR/VR интерфейсов
— Исследований моторики

Apple делает шаг к более ловкому ИИ 🤖

arxiv.org/abs/2505.11709 (
👍112🔥2
💡 Исследователи представили тщательно отобранный датасет для общего рассуждения: из более чем миллиона примеров из открытых источников они отобрали около 350 тысяч наиболее ценных с помощью серии абляционных экспериментов.

Модели, обученные на этом наборе данных, показали сопоставимые или даже более высокие результаты, чем дистиллированные модели от DeepSeek — как в задачах по математике и программированию, так и на научных бенчмарках вроде GPQA.

Авторы также подтвердили эффективность "добавочного подхода", предложенного в работе Phi-4-reasoning: датасеты можно оптимизировать отдельно для каждой области рассуждений, а затем объединить в единую итоговую смесь — это действительно даёт сильный прирост качества.

huggingface.co/datasets/open-r1/Mixture-of-Thoughts
👍6🔥3🤷‍♂22
🧠 Adaptive Deep Reasoning — умная система от Hunyuan, которая сама выбирает, **как много думать*.

Вместо одного фиксированного способа рассуждать — модель динамически переключается между короткой и длинной цепочкой **рассуждений в зависимости от сложности задачи.

Без потери качества. Без избыточных токенов.

🔧 Как это работает:

1️⃣ Supervised Fine-tuning — обучает модель сразу двум режимам: short и long reasoning
2️⃣ Reinforcement Learning (GRPO) — адаптивная стратегия наград:
• Анализирует сложность запроса
• Подбирает подходящую длину рассуждения
• Оптимизирует выбор reasoning-режима

⚙️ Встроенная logit-based switching loss — с первого токена выбирает нужную траекторию (длинную или короткую).

Что получаем:
• Мгновенное переключение между режимами
• Экономия ресурсов без потери точности
• Повышение эффективности reasoning без усложнения архитектуры

🚀 Adaptive Deep Reasoning — это как если бы модель *думала ровно столько, сколько нужно*. Ни больше, ни меньше.

arxiv.org/pdf/2505.20101

@bigdatai
7👍3🔥1
✔️ Black Forest Labs презентовала FLUX.1 Kontext.

FLUX.1 Kontext — семейство моделей для генерации и редактирования изображений, которые работают "в контексте". Это значит, что модели умеют не только генерировать картинки по тексту, но и принимать на вход изображения, чтобы модель поняла, что именно вы хотите сохранить или изменить. Возможности: сохранение стиля или персонажа из вашего референса, точечное редактирование без искажения и добавление инструкций шаг за шагом.

Есть 3 версии: FLUX.1 Kontext [pro] — универсальная для генерации и инпейнта, работает в разы быстрее аналогов и сохраняет консистентность при многошаговых правках. FLUX.1 Kontext [max] — экспериментальная модель с улучшенным следованием промптам и типографикой. Обе уже доступны через партнеров: KreaAI, Freepik, LeonardoAI, Replicate и др.

Для исследователей и энтузиастов открыли доступ по запросу к приватной бета-версии FLUX.1 Kontext [dev] с открытыми весами (12B). А чтобы просто потестить возможности, запустили демо - Playground.
bfl.ai

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥2🤩2
🧠 Gemini Fullstack LangGraph — умный AI, который реально умеет гуглить

Этот проект — готовый fullstack-пример с фронтендом на React и backend-агентом на LangGraph, который умеет проводить глубокие исследования по пользовательскому запросу. И делает это по-взрослому: генерирует поисковые фразы, гуглит, анализирует пробелы в знании и уточняет запросы, пока не соберёт обоснованный ответ с источниками.

🚀 Что под капотом:

💬 Fullstack-приложение: React + LangGraph
🧠 LangGraph-агент, управляемый Google Gemini
🔍 Динамическая генерация поисковых запросов
🌐 Поиск через Google Search API
🤔 Умная самооценка: где не хватает знаний — туда и копает
📄 Ответы с цитатами и источниками
🔄 Горячая перезагрузка — удобно в разработке (и фронт, и бэк)

📦 Подходит для тех, кто хочет собрать исследовательского AI-ассистента с реальным выходом в веб.

🔗 Репозиторий
4👍2🥰1
🧠 Что такое Word Embeddings и зачем они нужны в NLP?

В новой статье на Machine Learning Mastery объясняется, как word embeddings (векторные представления слов) преобразили обработку естественного языка.

📌 Что такое word embeddings?

Это способ представить слова в виде плотных векторов в многомерном пространстве, где семантически похожие слова располагаются рядом. Например, вектора для слов "король" и "королева" будут близки друг к другу. Это основано на гипотезе распределения: слова, встречающиеся в похожих контекстах, имеют схожее значение.

🔧 Как их использовать?

- Предобученные модели: можно использовать готовые embeddings, такие как Word2Vec, GloVe, FastText или ELMo.
- Обучение с нуля: с помощью библиотек, например, Gensim или PyTorch, можно обучить собственные embeddings на вашем корпусе данных.

### 🤖 Embeddings в современных языковых моделях

В трансформерах, таких как BERT, embeddings являются первым слоем (`nn.Embedding`), преобразующим токены в векторы. Эти вектора затем обрабатываются слоями внимания для понимания контекста и значений слов в предложении.

📚 Подробнее
1👍1
Forwarded from Machinelearning
🌟 Microsoft GUI-Actor: взаимодействие ИИ с GUI без использования координат.

GUI-Actor — методика на базе VLM, которая вместо традиционной генерации координат текстом при визуальной обработке интерфейса использует внимание внутри модели.

Чтобы уйти от координатного подхода, в GUI-Actor используется специальный токен <ACTOR>, который "учится" связываться с визуальными патчами, соответствующими целевой области экрана. За один проход модель может запомнить сразу несколько кандидатов на действие.

Например, все кнопки "Сохранить" в сложном интерфейсе. Это очень похоже на человеческое восприятие: видеть сам элемент, а не его позиции по осям Х и Y.


Выбрать наиболее подходящий вариант из элементов-кандидатов помогает "верификатор". Это отдельная модель, оценивающая кандидатов от <ACTOR> и отбирающая самый подходящий для действия. Она не только улучшает точность, но и универсальна: ее можно подключить к другим моделям.

Обучение требует минимум ресурсов. Можно заморозить основную VLM (Qwen2-VL-7B) и дообучить только новый action head и токены. Это всего ~100М параметров для 7B-модели.

Комбинация из такого быстрого обучения + верификатор почти догоняет полноценно обученные аналоги, сохраняя общие способности базовой модели. Никакого "катастрофического забывания" - агент учится кликать интерфейсы, не разучиваясь описывать картинки.

Результаты тестов на сложном бенчмарке ScreenSpot-Pro с высоким разрешением и незнакомыми интерфейсами (CAD, научный софт) GUI-Actor-7B с Qwen2-VL показал 40.7 балла, а с Qwen2.5-VL — 44.6, обойдя даже UI-TARS-72B (38.1).

На других тестах (ScreenSpot, ScreenSpot-v2) он тоже лидирует, особенно в иконках и текстовых элементах, демонстрируя крутую адаптацию к разным разрешениям и версткам.

▶️В открытый доступ опубликованы веса моделей:

🟢GUI-Actor-7B-Qwen2-VL;
🟢GUI-Actor-2B-Qwen2-VL;
🟠GUI-Actor-Verifier-2B.

В планах - выпуск еще двух моделей на основе Qwen2.5-VL (3B и 7B), демо GUI-Actor, код для модели-верификатора и датасеты для обучения.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #GUIActor #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/07/13 17:34:20
Back to Top
HTML Embed Code: