Forwarded from Machinelearning
Что она умеет:
-
- Автоматическая пунктуация, капитализация и точные таймстампы до слова.
- Поддержка русского, французского, немецкого, испанского и многих других языков.
Чем интересна
- До 10× быстрее инференс, чем у моделей в 3 раза больше.
- Уже показывает state-of-the-art точность среди открытых моделей на Hugging Face.
- Лицензия CC-BY-4.0 — можно свободно использовать в проектах.
Под капотом:
- Архитектура: FastConformer-энкодер + Transformer-декодер (~978M параметров).
- Форматы:
.wav
и .flac
, моно 16 кГц. - Легко интегрируется через NVIDIA NeMo или прямо с Hugging Face.
Где пригодится:
Всего ~978M параметров → легче, быстрее и дешевле в использовании, чем большие модели конкурентов.
@ai_machinelearning_big_data
#AI #NVIDIA #SpeechRecognition #ASR #AST #Multilingual #MachineLearning #DeepLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2🥰1
♟️ UC Berkeley: RL чуть улучшает шахматную тактику LLM, но не учит стратегии
В работе обучали Qwen2.5 3B и 7B, а также Llama3.1 8B с Group Relative Policy Optimization. Каждое действие оценивалось с помощью заранее обученного «шахматного критика» — трансформера на 270M параметров, натренированного на 15 млрд позиций со Stockfish-оценками. Такой критик даёт плотную (dense) и градуированную награду — не просто «верно/неверно», а вероятность победы.
📈 Результаты
- Dense-награда ускоряет обучение и даёт лучшие результаты, чем чистый supervised fine tuning.
- Но точность на шахматных задачах упирается в 25–30% (против 66.5% у 1800 ELO), вне зависимости от модели.
- Добавление reasoning-трейсов от более сильной модели при SFT потолок не пробивает, а иногда даже ухудшает результат.
🔍 Почему потолок
- Модели не могут надёжно «держать в голове» позицию и применять базовую тактику.
- В тестах: на задаче обновления доски — 0.0% у всех, на задаче «мат в 1» (2 варианта ответа) — Instruct-модели ~52%, базовые — 12.7–42.7%.
⚙️ Анализ
- Моделям нужно «ведение за руку» — без списка легальных ходов обучение рушится.
- SAN (Standard Algebraic Notation) лучше UCI, формат FEN vs PGN не влияет.
💡 Вывод
RL в основном усиливает то, что уже есть после предобучения. Без глубоких шахматных знаний на этапе пре-трейна LLM не способны строить стабильные долгосрочные планы.
https://arxiv.org/abs/2507.00726
В работе обучали Qwen2.5 3B и 7B, а также Llama3.1 8B с Group Relative Policy Optimization. Каждое действие оценивалось с помощью заранее обученного «шахматного критика» — трансформера на 270M параметров, натренированного на 15 млрд позиций со Stockfish-оценками. Такой критик даёт плотную (dense) и градуированную награду — не просто «верно/неверно», а вероятность победы.
📈 Результаты
- Dense-награда ускоряет обучение и даёт лучшие результаты, чем чистый supervised fine tuning.
- Но точность на шахматных задачах упирается в 25–30% (против 66.5% у 1800 ELO), вне зависимости от модели.
- Добавление reasoning-трейсов от более сильной модели при SFT потолок не пробивает, а иногда даже ухудшает результат.
🔍 Почему потолок
- Модели не могут надёжно «держать в голове» позицию и применять базовую тактику.
- В тестах: на задаче обновления доски — 0.0% у всех, на задаче «мат в 1» (2 варианта ответа) — Instruct-модели ~52%, базовые — 12.7–42.7%.
⚙️ Анализ
- Моделям нужно «ведение за руку» — без списка легальных ходов обучение рушится.
- SAN (Standard Algebraic Notation) лучше UCI, формат FEN vs PGN не влияет.
💡 Вывод
RL в основном усиливает то, что уже есть после предобучения. Без глубоких шахматных знаний на этапе пре-трейна LLM не способны строить стабильные долгосрочные планы.
https://arxiv.org/abs/2507.00726
❤4👍3🥰1
Forwarded from Machinelearning
🐋 Гигантский кит приплыл к нам!
🚀 DeepSeek обновился до V3.1.
Следите за новостями, волна только набирает силу.
✨ Новый LLM: deepseek-ai/DeepSeek-V3.1-Base
⚡ 685B параметров
📏 Контекстное окно 128k
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
@ai_machinelearning_big_data
#DeepSeek #AI #LLM #V3_1 #MachineLearning
🚀 DeepSeek обновился до V3.1.
Следите за новостями, волна только набирает силу.
✨ Новый LLM: deepseek-ai/DeepSeek-V3.1-Base
⚡ 685B параметров
📏 Контекстное окно 128k
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
@ai_machinelearning_big_data
#DeepSeek #AI #LLM #V3_1 #MachineLearning
❤10🔥5👍3
🧠 Reasoning — это не «да/нет».
Сегодня почти все LLM обучены на схожих RL-техниках. Разница не в том, есть reasoning или нет, а в том, сколько усилий модель тратит на рассуждения.
🔎 Примеры:
- Claude — многие называют «non-reasoning», но именно они первыми ввели спец-токены и режим *«thinking deeply, stand by…»*.
- DeepSeek v3.1 тоже явно тратит токены на рассуждения, просто это пока не так очевидно.
- GPT-5 в thinking-режиме выдаёт лучшие результаты, используя почти в 2 раза меньше токенов, чем o3.
⚡ Ключ — токены на ответ. Их редко показывают, но именно они отражают реальное «усилие reasoning».
R1-0528 и Qwen подняли метрики за счёт увеличения reasoning-токенов, но это не всегда полезно для юзера.
👉 Правильный взгляд: reasoning = спектр.
Цена и ценность модели = активные параметры × число reasoning-токенов.
#AI #LLM #reasoning #benchmarks
Сегодня почти все LLM обучены на схожих RL-техниках. Разница не в том, есть reasoning или нет, а в том, сколько усилий модель тратит на рассуждения.
🔎 Примеры:
- Claude — многие называют «non-reasoning», но именно они первыми ввели спец-токены и режим *«thinking deeply, stand by…»*.
- DeepSeek v3.1 тоже явно тратит токены на рассуждения, просто это пока не так очевидно.
- GPT-5 в thinking-режиме выдаёт лучшие результаты, используя почти в 2 раза меньше токенов, чем o3.
⚡ Ключ — токены на ответ. Их редко показывают, но именно они отражают реальное «усилие reasoning».
R1-0528 и Qwen подняли метрики за счёт увеличения reasoning-токенов, но это не всегда полезно для юзера.
👉 Правильный взгляд: reasoning = спектр.
Цена и ценность модели = активные параметры × число reasoning-токенов.
#AI #LLM #reasoning #benchmarks
❤5👍3🔥3
🌟 TabPFN — трансформер для быстрого анализа табличных данных. Этот проект предлагает альтернативу традиционным методам машинного обучения для работы с табличными данными. Модель демонстрирует впечатляющую скорость — решает задачи классификации и регрессии за секунды, даже на небольших датасетах.
Сервис обладает минимальной потребностью в настройке гиперпараметров. Достаточно установить пакет через pip, и модель готова к работе. Для максимальной точности разработчики рекомендуют использовать AutoTabPFN с автоматическим ансамблированием.
🤖 GitHub
@machinelearning_ru
Сервис обладает минимальной потребностью в настройке гиперпараметров. Достаточно установить пакет через pip, и модель готова к работе. Для максимальной точности разработчики рекомендуют использовать AutoTabPFN с автоматическим ансамблированием.
🤖 GitHub
@machinelearning_ru
❤7👍5🔥2
⚡️ Библиотека EasyOCR для распознавания текста на картинках
Поддерживает 80+ языков.
Выдаёт результат в виде списка, каждый элемент которого представляет собой координаты ограничивающей рамки, обнаруженный текст и уровень уверенности модели.
Установка:
🟢 Репозиторий
@machinelearning_ru
Поддерживает 80+ языков.
Выдаёт результат в виде списка, каждый элемент которого представляет собой координаты ограничивающей рамки, обнаруженный текст и уровень уверенности модели.
Установка:
pip install easyocr
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥4🥰2👏1
⚡ Новое исследование: меньше — значит лучше?
Авторы работы проверили, правда ли **Sparse Mixture of Experts (MoE)**-модели становятся лучше просто за счёт роста размера.
🔎 Сравнивали 8 открытых моделей на 10 бенчмарках в одинаковых условиях, проверяя результаты статистическими тестами.
Ключевые выводы
- 🏆 GPT-OSS 20B обошёл GPT-OSS 120B на MMLU и HumanEval.
- ⚡ 20B требует в 5 раз меньше GPU-памяти и на 2.6 раза меньше энергии на ответ.
- 20B даёт более короткие и точные ответы, а 120B часто проигрывает из-за неэффективного роутинга или обучения.
- Обе модели сильны в генерации кода, но слабы на китайских задачах.
Практическое значение
- ✅ Для английского кода и структурных рассуждений выгоднее использовать 20B — выше пропускная способность и ниже задержка.
- ❌ Для многоязычных и профессиональных доменов преимущества не так очевидны.
📄 Paper: arxiv.org/abs/2508.12461
Авторы работы проверили, правда ли **Sparse Mixture of Experts (MoE)**-модели становятся лучше просто за счёт роста размера.
🔎 Сравнивали 8 открытых моделей на 10 бенчмарках в одинаковых условиях, проверяя результаты статистическими тестами.
Ключевые выводы
- 🏆 GPT-OSS 20B обошёл GPT-OSS 120B на MMLU и HumanEval.
- ⚡ 20B требует в 5 раз меньше GPU-памяти и на 2.6 раза меньше энергии на ответ.
- 20B даёт более короткие и точные ответы, а 120B часто проигрывает из-за неэффективного роутинга или обучения.
- Обе модели сильны в генерации кода, но слабы на китайских задачах.
Практическое значение
- ✅ Для английского кода и структурных рассуждений выгоднее использовать 20B — выше пропускная способность и ниже задержка.
- ❌ Для многоязычных и профессиональных доменов преимущества не так очевидны.
📄 Paper: arxiv.org/abs/2508.12461
👍6❤5🔥2🥰1
⚡️Qoder — бесплатный ИИ-редактор кода от Alibaba
Разработчики называют его платформой для кодинга «нового поколения». Qoder понимает всю кодовую базу, разбивает задачу на шаги, запоминает твой стиль и самое классное — модель подбирается автоматически в зависимости от задачи.
Есть еще Quest Mode: описываешь задачу, а Qoder сам пишет спецификацию, планирует и выполняет изменения по коду.
https://qoder.com/
Разработчики называют его платформой для кодинга «нового поколения». Qoder понимает всю кодовую базу, разбивает задачу на шаги, запоминает твой стиль и самое классное — модель подбирается автоматически в зависимости от задачи.
Есть еще Quest Mode: описываешь задачу, а Qoder сам пишет спецификацию, планирует и выполняет изменения по коду.
https://qoder.com/
👍6❤5🔥3🤬2😁1
Forwarded from Machinelearning
По слухам, которые появились из-за поста инженера DeepMind Патрика Лоебера в сети Х, на этой неделе мы увидим инпейнт-модель для редактирования изображений под названием Nano Banana.
Модель наделала шуму на Lmarena, да и тестеры предварительных версий отмечают способность вносить очень точечные изменения в изображение, не затрагивая другие его элементы.
При этом качество изображений, генерируемое Nano Banana сопоставимо с результатами более крупных и ресурсоемких систем.
Официально Google пока не объявляла дату запуска и не раскрывала информацию о ценах.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
📉 MIT: 95% AI-пилотов проваливаются
MIT опубликовали отчёт, который напугал инвесторов:
🔴 95% проектов по внедрению GenAI не дают никакой отдачи.
✅ Лишь 5% компаний получают результат — потому что делают иначе:
- интегрируют ИИ прямо в рабочие процессы,
- дают системам возможность учиться и адаптироваться,
- улучшают их на основе реального использования.
❌ А большинство компаний повторяет ошибку — покупают “статичные” решения, которые эффектно смотрятся на демо, но в реальности:
- не помнят контекст,
- не подстраиваются под задачи,
- не помогают в ежедневной работе.
🧪 Как MIT изучали проблему
- проанализировали 300+ кейсов внедрения,
- провели 52 интервью,
- собрали 153 опроса у топ-менеджеров (январь–июнь 2025).
Вывод: успех дают не красивые пилоты, а живые системы, встроенные в бизнес.
🟢 Подробнее
MIT опубликовали отчёт, который напугал инвесторов:
🔴 95% проектов по внедрению GenAI не дают никакой отдачи.
✅ Лишь 5% компаний получают результат — потому что делают иначе:
- интегрируют ИИ прямо в рабочие процессы,
- дают системам возможность учиться и адаптироваться,
- улучшают их на основе реального использования.
❌ А большинство компаний повторяет ошибку — покупают “статичные” решения, которые эффектно смотрятся на демо, но в реальности:
- не помнят контекст,
- не подстраиваются под задачи,
- не помогают в ежедневной работе.
🧪 Как MIT изучали проблему
- проанализировали 300+ кейсов внедрения,
- провели 52 интервью,
- собрали 153 опроса у топ-менеджеров (январь–июнь 2025).
Вывод: успех дают не красивые пилоты, а живые системы, встроенные в бизнес.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍3🔥3
Media is too big
VIEW IN TELEGRAM
🆕 GeoSAM2 — новый уровень интерактивной 3D-сегментации
Теперь можно выделять части 3D-моделей простыми 2D-кликами или рамками на изображении, а система автоматически проецирует выделение на весь объект.
✨ Особенности:
- Интерактивность: клики вместо сложных текстов.
- Точность: выделение как крупных, так и мелких деталей.
- Эффективность: без переобучения на каждом объекте.
- Лидерство на бенчмарках PartObjaverse-Tiny и PartNetE.
🚀 Подходит для дизайнеров, геймдева и робототехники, где важна точная работа с деталями 3D-объектов.
🔗 Демка: https://detailgen3d.github.io/GeoSAM2/
Теперь можно выделять части 3D-моделей простыми 2D-кликами или рамками на изображении, а система автоматически проецирует выделение на весь объект.
✨ Особенности:
- Интерактивность: клики вместо сложных текстов.
- Точность: выделение как крупных, так и мелких деталей.
- Эффективность: без переобучения на каждом объекте.
- Лидерство на бенчмарках PartObjaverse-Tiny и PartNetE.
🚀 Подходит для дизайнеров, геймдева и робототехники, где важна точная работа с деталями 3D-объектов.
🔗 Демка: https://detailgen3d.github.io/GeoSAM2/
👍5🔥3❤2
🔹 Современные LLM способны решать широкий круг задач — от генерации кода до подготовки аналитических отчётов.
Но на практике многие сталкиваются с тем, что ответы модели слишком общие, неточные или требуют значительной доработки.
Причина в том, что результат напрямую зависит от формулировки запроса.
Грамотный промт превращает LLM из «демонстрации технологий» в рабочий инструмент, который экономит время и снижает количество ошибок.
📘 На Stepik доступен курс
«Prompt Engineering: искусство работы с ИИ»
Что вы освоите:
* методы составления чётких и воспроизводимых запросов;
* управление форматом вывода (код, JSON, таблицы, структурированные тексты);
* построение последовательных цепочек промтов для комплексных задач;
* практические подходы к проверке и улучшению качества ответов модели;
* примеры применения в IT, аналитике, управлении и образовании.
🎯 Формат курса: концентрированные уроки с обязательной практикой.
🎓 По итогам — сертификат Stepik и собственный набор рабочих промтов, готовых к применению в реальной работе.
⚡ В течение 48 часов действует скидка 25%
👉 Пройти курс на Stepik
Но на практике многие сталкиваются с тем, что ответы модели слишком общие, неточные или требуют значительной доработки.
Причина в том, что результат напрямую зависит от формулировки запроса.
Грамотный промт превращает LLM из «демонстрации технологий» в рабочий инструмент, который экономит время и снижает количество ошибок.
📘 На Stepik доступен курс
«Prompt Engineering: искусство работы с ИИ»
Что вы освоите:
* методы составления чётких и воспроизводимых запросов;
* управление форматом вывода (код, JSON, таблицы, структурированные тексты);
* построение последовательных цепочек промтов для комплексных задач;
* практические подходы к проверке и улучшению качества ответов модели;
* примеры применения в IT, аналитике, управлении и образовании.
🎯 Формат курса: концентрированные уроки с обязательной практикой.
🎓 По итогам — сертификат Stepik и собственный набор рабочих промтов, готовых к применению в реальной работе.
⚡ В течение 48 часов действует скидка 25%
👉 Пройти курс на Stepik
❤5🔥4👍3👎1😁1
🎉 Open-Fiesta: AI Chat Playground
Open-Fiesta — это открытая платформа для общения с ИИ, построенная на Next.js. Она позволяет переключаться между различными моделями и провайдерами, сравнивать их результаты и использовать веб-поиск и вложения изображений.
🚀 Основные моменты:
- Поддержка нескольких провайдеров (Gemini, OpenRouter и др.)
- Выбор до 5 моделей для одновременного использования
- Встроенный веб-поиск для каждого сообщения
- Поддержка вложений изображений
- Удобный интерфейс с нормализацией API
🟣 Ссылка: https://github.com/NiladriHazra/Open-Fiesta
testauopost
Open-Fiesta — это открытая платформа для общения с ИИ, построенная на Next.js. Она позволяет переключаться между различными моделями и провайдерами, сравнивать их результаты и использовать веб-поиск и вложения изображений.
🚀 Основные моменты:
- Поддержка нескольких провайдеров (Gemini, OpenRouter и др.)
- Выбор до 5 моделей для одновременного использования
- Встроенный веб-поиск для каждого сообщения
- Поддержка вложений изображений
- Удобный интерфейс с нормализацией API
🟣 Ссылка: https://github.com/NiladriHazra/Open-Fiesta
testauopost
🔥5❤3🥰2🤔1
🔥 Нашёл классный ресурс по истории ИИ
Оказывается, статьи в духе *«AI замедляется»* выходят уже много лет подряд.
Теперь появился сайт, где собрали все эти «думерские» публикации в одном месте.
Интересно пролистать и посмотреть, как регулярно предсказывали «конец прогресса» в ИИ.
aislowdown.replit.app
Оказывается, статьи в духе *«AI замедляется»* выходят уже много лет подряд.
Теперь появился сайт, где собрали все эти «думерские» публикации в одном месте.
Интересно пролистать и посмотреть, как регулярно предсказывали «конец прогресса» в ИИ.
aislowdown.replit.app
❤3🔥2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
10–11 сентября встречаемся на IT Elements — конференции, сделанной айтишниками для айтишников.
Площадка в третий раз станет точкой притяжения тех, кто реально делает ИТ в России. В этом году в фокусе — всё самое важное: инфраструктура, сети, кибербезопасность, и впервые — отдельный трек по Data & AI!
Крупнейшие игроки рынка будут обсуждать, где заканчивается хайп и начинается реальная польза от ИИ.
▪️Корпоративный ИИ: как внедрять GPT-модели, AI-ассистентов и цифровых двойников в крупный бизнес.
▪️AI в маркетинге: как нейросети анализируют данные клиентов и предсказывают спрос.
▪️DataOps & MLOps: как устроены цифровые фабрики данных и как DevOps, MLOps и DataOps работают вместе.
▪️Big Data → Big Value: как из данных в промышленности извлекать реальную ценность.
Формат: офлайн (Москва) или онлайн.
Участие бесплатное, по предварительной регистрации.
Площадка в третий раз станет точкой притяжения тех, кто реально делает ИТ в России. В этом году в фокусе — всё самое важное: инфраструктура, сети, кибербезопасность, и впервые — отдельный трек по Data & AI!
Крупнейшие игроки рынка будут обсуждать, где заканчивается хайп и начинается реальная польза от ИИ.
▪️Корпоративный ИИ: как внедрять GPT-модели, AI-ассистентов и цифровых двойников в крупный бизнес.
▪️AI в маркетинге: как нейросети анализируют данные клиентов и предсказывают спрос.
▪️DataOps & MLOps: как устроены цифровые фабрики данных и как DevOps, MLOps и DataOps работают вместе.
▪️Big Data → Big Value: как из данных в промышленности извлекать реальную ценность.
Формат: офлайн (Москва) или онлайн.
Участие бесплатное, по предварительной регистрации.