Telegram Web
Forwarded from Machinelearning
🎙️ NVIDIA выпустили Canary-1B v2 — открытую модель для распознавания и перевода речи, которая работает с 25 европейскими языками.

Что она умеет:
- 📝 Точное ASR (распознавание речи) и AST (перевод речи) между английским и 24 другими языками.
- Автоматическая пунктуация, капитализация и точные таймстампы до слова.
- Поддержка русского, французского, немецкого, испанского и многих других языков.

Чем интересна
- До 10× быстрее инференс, чем у моделей в 3 раза больше.
- Уже показывает state-of-the-art точность среди открытых моделей на Hugging Face.
- Лицензия CC-BY-4.0 — можно свободно использовать в проектах.

Под капотом:
- Архитектура: FastConformer-энкодер + Transformer-декодер (~978M параметров).
- Форматы: .wav и .flac, моно 16 кГц.
- Легко интегрируется через NVIDIA NeMo или прямо с Hugging Face.

Где пригодится:
🟢 голосовые ассистенты
🟢 субтитры и перевод видео
🟢 чат-боты с речевым вводом
🟢 real-time анализ речи

Всего ~978M параметров → легче, быстрее и дешевле в использовании, чем большие модели конкурентов.

🟠 Попробовать можно здесь: https://huggingface.co/nvidia/canary-1b-v2
🟠SET: https://huggingface.co/datasets/nvidia/Granary
🟠PARAKEET: https://huggingface.co/nvidia/parakeet-tdt-0.6b-v3

@ai_machinelearning_big_data


#AI #NVIDIA #SpeechRecognition #ASR #AST #Multilingual #MachineLearning #DeepLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2🥰1
♟️ UC Berkeley: RL чуть улучшает шахматную тактику LLM, но не учит стратегии

В работе обучали Qwen2.5 3B и 7B, а также Llama3.1 8B с Group Relative Policy Optimization. Каждое действие оценивалось с помощью заранее обученного «шахматного критика» — трансформера на 270M параметров, натренированного на 15 млрд позиций со Stockfish-оценками. Такой критик даёт плотную (dense) и градуированную награду — не просто «верно/неверно», а вероятность победы.

📈 Результаты
- Dense-награда ускоряет обучение и даёт лучшие результаты, чем чистый supervised fine tuning.
- Но точность на шахматных задачах упирается в 25–30% (против 66.5% у 1800 ELO), вне зависимости от модели.
- Добавление reasoning-трейсов от более сильной модели при SFT потолок не пробивает, а иногда даже ухудшает результат.

🔍 Почему потолок
- Модели не могут надёжно «держать в голове» позицию и применять базовую тактику.
- В тестах: на задаче обновления доски — 0.0% у всех, на задаче «мат в 1» (2 варианта ответа) — Instruct-модели ~52%, базовые — 12.7–42.7%.

⚙️ Анализ
- Моделям нужно «ведение за руку» — без списка легальных ходов обучение рушится.
- SAN (Standard Algebraic Notation) лучше UCI, формат FEN vs PGN не влияет.

💡 Вывод
RL в основном усиливает то, что уже есть после предобучения. Без глубоких шахматных знаний на этапе пре-трейна LLM не способны строить стабильные долгосрочные планы.

https://arxiv.org/abs/2507.00726
4👍3🥰1
Forwarded from Machinelearning
🐋 Гигантский кит приплыл к нам!

🚀 DeepSeek обновился до V3.1.

Следите за новостями, волна только набирает силу.

Новый LLM: deepseek-ai/DeepSeek-V3.1-Base
685B параметров
📏 Контекстное окно 128k

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

@ai_machinelearning_big_data

#DeepSeek #AI #LLM #V3_1 #MachineLearning
10🔥5👍3
🧠 Reasoning — это не «да/нет».

Сегодня почти все LLM обучены на схожих RL-техниках. Разница не в том, есть reasoning или нет, а в том, сколько усилий модель тратит на рассуждения.

🔎 Примеры:
- Claude — многие называют «non-reasoning», но именно они первыми ввели спец-токены и режим *«thinking deeply, stand by…»*.
- DeepSeek v3.1 тоже явно тратит токены на рассуждения, просто это пока не так очевидно.
- GPT-5 в thinking-режиме выдаёт лучшие результаты, используя почти в 2 раза меньше токенов, чем o3.

Ключ — токены на ответ. Их редко показывают, но именно они отражают реальное «усилие reasoning».
R1-0528 и Qwen подняли метрики за счёт увеличения reasoning-токенов, но это не всегда полезно для юзера.

👉 Правильный взгляд: reasoning = спектр.
Цена и ценность модели = активные параметры × число reasoning-токенов.

#AI #LLM #reasoning #benchmarks
5👍3🔥3
🌟 TabPFN — трансформер для быстрого анализа табличных данных. Этот проект предлагает альтернативу традиционным методам машинного обучения для работы с табличными данными. Модель демонстрирует впечатляющую скорость — решает задачи классификации и регрессии за секунды, даже на небольших датасетах.

Сервис обладает минимальной потребностью в настройке гиперпараметров. Достаточно установить пакет через pip, и модель готова к работе. Для максимальной точности разработчики рекомендуют использовать AutoTabPFN с автоматическим ансамблированием.

🤖 GitHub

@machinelearning_ru
7👍5🔥2
⚡️ Библиотека EasyOCR для распознавания текста на картинках

Поддерживает 80+ языков.

Выдаёт результат в виде списка, каждый элемент которого представляет собой координаты ограничивающей рамки, обнаруженный текст и уровень уверенности модели.

Установка: pip install easyocr

🟢Репозиторий

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥4🥰2👏1
Новое исследование: меньше — значит лучше?

Авторы работы проверили, правда ли **Sparse Mixture of Experts (MoE)**-модели становятся лучше просто за счёт роста размера.

🔎 Сравнивали 8 открытых моделей на 10 бенчмарках в одинаковых условиях, проверяя результаты статистическими тестами.

Ключевые выводы
- 🏆 GPT-OSS 20B обошёл GPT-OSS 120B на MMLU и HumanEval.
- 20B требует в 5 раз меньше GPU-памяти и на 2.6 раза меньше энергии на ответ.
- 20B даёт более короткие и точные ответы, а 120B часто проигрывает из-за неэффективного роутинга или обучения.
- Обе модели сильны в генерации кода, но слабы на китайских задачах.

Практическое значение
- Для английского кода и структурных рассуждений выгоднее использовать 20B — выше пропускная способность и ниже задержка.
- Для многоязычных и профессиональных доменов преимущества не так очевидны.

📄 Paper: arxiv.org/abs/2508.12461
👍65🔥2🥰1
⚡️Qoder — бесплатный ИИ-редактор кода от Alibaba

Разработчики называют его платформой для кодинга «нового поколения». Qoder понимает всю кодовую базу, разбивает задачу на шаги, запоминает твой стиль и самое классное — модель подбирается автоматически в зависимости от задачи.

Есть еще Quest Mode: описываешь задачу, а Qoder сам пишет спецификацию, планирует и выполняет изменения по коду.

https://qoder.com/
👍65🔥3🤬2😁1
Forwarded from Machinelearning
⚡️ Google готовится к запуску модели Nano Banana.

По слухам, которые появились из-за поста инженера DeepMind Патрика Лоебера в сети Х, на этой неделе мы увидим инпейнт-модель для редактирования изображений под названием Nano Banana.

Модель наделала шуму на Lmarena, да и тестеры предварительных версий отмечают способность вносить очень точечные изменения в изображение, не затрагивая другие его элементы.

При этом качество изображений, генерируемое Nano Banana сопоставимо с результатами более крупных и ресурсоемких систем.

Официально Google пока не объявляла дату запуска и не раскрывала информацию о ценах.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
📉 MIT: 95% AI-пилотов проваливаются

MIT опубликовали отчёт, который напугал инвесторов:
🔴 95% проектов по внедрению GenAI не дают никакой отдачи.
Лишь 5% компаний получают результат — потому что делают иначе:
- интегрируют ИИ прямо в рабочие процессы,
- дают системам возможность учиться и адаптироваться,
- улучшают их на основе реального использования.

А большинство компаний повторяет ошибку — покупают “статичные” решения, которые эффектно смотрятся на демо, но в реальности:
- не помнят контекст,
- не подстраиваются под задачи,
- не помогают в ежедневной работе.

🧪 Как MIT изучали проблему
- проанализировали 300+ кейсов внедрения,
- провели 52 интервью,
- собрали 153 опроса у топ-менеджеров (январь–июнь 2025).

Вывод: успех дают не красивые пилоты, а живые системы, встроенные в бизнес.

🟢Подробнее
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍3🔥3
Media is too big
VIEW IN TELEGRAM
🆕 GeoSAM2 — новый уровень интерактивной 3D-сегментации

Теперь можно выделять части 3D-моделей простыми 2D-кликами или рамками на изображении, а система автоматически проецирует выделение на весь объект.

Особенности:
- Интерактивность: клики вместо сложных текстов.
- Точность: выделение как крупных, так и мелких деталей.
- Эффективность: без переобучения на каждом объекте.
- Лидерство на бенчмарках PartObjaverse-Tiny и PartNetE.

🚀 Подходит для дизайнеров, геймдева и робототехники, где важна точная работа с деталями 3D-объектов.

🔗 Демка: https://detailgen3d.github.io/GeoSAM2/
👍5🔥32
🔹 Современные LLM способны решать широкий круг задач — от генерации кода до подготовки аналитических отчётов.

Но на практике многие сталкиваются с тем, что ответы модели слишком общие, неточные или требуют значительной доработки.

Причина в том, что результат напрямую зависит от формулировки запроса.
Грамотный промт превращает LLM из «демонстрации технологий» в рабочий инструмент, который экономит время и снижает количество ошибок.

📘 На Stepik доступен курс
«Prompt Engineering: искусство работы с ИИ»

Что вы освоите:

* методы составления чётких и воспроизводимых запросов;
* управление форматом вывода (код, JSON, таблицы, структурированные тексты);
* построение последовательных цепочек промтов для комплексных задач;
* практические подходы к проверке и улучшению качества ответов модели;
* примеры применения в IT, аналитике, управлении и образовании.

🎯 Формат курса: концентрированные уроки с обязательной практикой.

🎓 По итогам — сертификат Stepik и собственный набор рабочих промтов, готовых к применению в реальной работе.

В течение 48 часов действует скидка 25%

👉 Пройти курс на Stepik
5🔥4👍3👎1😁1
🎉 Open-Fiesta: AI Chat Playground

Open-Fiesta — это открытая платформа для общения с ИИ, построенная на Next.js. Она позволяет переключаться между различными моделями и провайдерами, сравнивать их результаты и использовать веб-поиск и вложения изображений.

🚀 Основные моменты:
- Поддержка нескольких провайдеров (Gemini, OpenRouter и др.)
- Выбор до 5 моделей для одновременного использования
- Встроенный веб-поиск для каждого сообщения
- Поддержка вложений изображений
- Удобный интерфейс с нормализацией API

🟣 Ссылка: https://github.com/NiladriHazra/Open-Fiesta
testauopost
🔥53🥰2🤔1
🔥 Нашёл классный ресурс по истории ИИ

Оказывается, статьи в духе *«AI замедляется»* выходят уже много лет подряд.

Теперь появился сайт, где собрали все эти «думерские» публикации в одном месте.

Интересно пролистать и посмотреть, как регулярно предсказывали «конец прогресса» в ИИ.

aislowdown.replit.app
3🔥2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
10–11 сентября встречаемся на IT Elements — конференции, сделанной айтишниками для айтишников.

Площадка в третий раз станет точкой притяжения тех, кто реально делает ИТ в России. В этом году в фокусе — всё самое важное: инфраструктура, сети, кибербезопасность, и впервые — отдельный трек по Data & AI!

Крупнейшие игроки рынка будут обсуждать, где заканчивается хайп и начинается реальная польза от ИИ.

▪️Корпоративный ИИ: как внедрять GPT-модели, AI-ассистентов и цифровых двойников в крупный бизнес.

▪️AI в маркетинге: как нейросети анализируют данные клиентов и предсказывают спрос.

▪️DataOps & MLOps: как устроены цифровые фабрики данных и как DevOps, MLOps и DataOps работают вместе.

▪️Big Data → Big Value: как из данных в промышленности извлекать реальную ценность.

Формат: офлайн (Москва) или онлайн.

Участие бесплатное, по предварительной регистрации.
2025/10/21 21:19:29
Back to Top
HTML Embed Code: