Xiaomi выпустила в опенсорсный релиз MiMo-7B — набор языковых моделей, созданных для решения сложных задач, от математики до генерации кода.
Несмотря на скромные 7 млрд. параметров, модель демонстрирует результаты, превосходящие 32B-конкурентов, разрушая стереотипы о зависимости качества от размера.
Создание MiMo началось с предтрейна на 25 трлн. токенов, где акцент был на повышении плотности логических паттернов.
Для этого разработчики пересмотрели обработку данных: улучшили извлечение математических формул и блоков кода из веб-страниц, добавили синтетические данные, сгенерированные топовыми ризонинг-моделями, и все это обработали уникальной стратегией смешивания.
На первых этапах доля STEM-контента достигала 70%, а на финальном — добавили синтетику и расширили контекст до 32K токенов.
Обучение с подкреплением на стадии посттренинга проводили на массиве из 130 тыс. задач, где каждая проверялась автоматически. Чтобы избежать reward hacking, использовали только rule-based награды.
Для сложных задач по программированию ввели систему частичных баллов (как на олимпиадах по информатике) - даже если решение не идеально, модель получает feedback за пройденные тесты. А чтобы RL не застревал на простых примерах, добавили ресэмплинг: 10% данных брали из пула уже решенных задач, балансируя эффективность и стабильность обучения.
Результаты бенчмарков: на LiveCodeBench v6 MiMo-7B-RL набрала 49.3%, обойдя QwQ-32B на 10 пунктов, а на AIME 2025 — 55.4%, оставив позади OpenAI o1-mini. При этом базовая версия модели уже показывала 75.2% на BBH, что выше аналогов своего класса.
⚠️ Разработчики рекомендуют использовать для локального инференса их форк vLLM , он поддерживает MTP (Multiple-Token Prediction), но и на HF Transformers инференс тоже работает.
@ai_machinelearning_big_data
#AI #ML #LLM #RL #Xiaomi #MiMo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤86👍36🔥22🤔3😨3
🔋 Экономия памяти: по сравнению с 7B-версией модель потребляет на 50 % меньше VRAM при обработке длинного контекста (~25 000 токенов).
📺 Мультимодальные режим: поддержка 30-секундных аудио- и видео«из коробки» на 24 GB видеокартах.
🤖 Высокое качество: модель сохраняет свыше 90 % точности ответов и обеспечивает естественный, стабильный синтез речи на уровне 7B-модели.
#Qwen #omni #opensource
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51❤29🔥18
На прошлой неделе завершился финал Всероссийской олимпиады по математике. В Яндекс Образовании спросили у студентов AI360, какие у них воспоминания об участии в олимпиадах и что они посоветуют будущим финалистам.
AI360 — это совместная программа бакалавриата от Яндекса, Сбера и четырёх топовых российских вузов — ИТМО, ВШЭ, МФТИ и Иннополис — для будущих архитекторов и исследователей ИИ. В этом году к партнерам добавится еще и СПбГУ. Кстати, 40% студентов AI360 — победители и призеры Всероссийской олимпиады по математике и информатике.
Новый набор в этом году будет больше в полтора раза! Стартует летом, подробности по ссылке.
AI360 — это совместная программа бакалавриата от Яндекса, Сбера и четырёх топовых российских вузов — ИТМО, ВШЭ, МФТИ и Иннополис — для будущих архитекторов и исследователей ИИ. В этом году к партнерам добавится еще и СПбГУ. Кстати, 40% студентов AI360 — победители и призеры Всероссийской олимпиады по математике и информатике.
Новый набор в этом году будет больше в полтора раза! Стартует летом, подробности по ссылке.
👌35👍20❤16🌭2
🚀Масштабная архитектура на базе, которая содержит 671 млрд параметров, что в 96 раз больше, чем у предыдущей версии Prover-V1.5 (7 млрд).
Построен на базе архитектуры «смеси экспертов» (MoE), что снижает затраты на обучение и повышает эффективность решения задач.
Модель заточена на формальное доказательство теорем с помощью языка программирования Lean 4, обеспечивая 100% логическую точность.
Lean 4 — это зависимо типизированный функциональный язык программирования и интерактивное средство доказательства теорем.
Результаты:
• Новая Sota( 88,9%) на MiniF2F-test.
• DeepSeek-Prover-V2 смогла доказать 49 теорем из 658.
Для тренировки использовались 8 млн синтетических примеров, созданных через рекурсивный поиск решений теорем.
🔍 Как это работает:
1) Разложение теорем: DeepSeek-V3 по prompt'у разбивает сложные задачи на подцели.
2) Формализация: Пошаговые рассуждения переводятся в доказательства на Lean 4.
3) Cold-start: Полученные цепочки рассуждений и формальные доказательства используются как начальные данные для обучения модели.
• 7 B — базовый вариант.
• 671 B — расширенная версия на базе DeepSeek-V3-Base.
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B
@ai_machinelearning_big_data
#DeepSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
👍89🔥36❤21👌5😍5
Media is too big
VIEW IN TELEGRAM
На конференции LlamaCon Сатья Наделла, глава Microsoft, заявил, что 20–30% кода в репозиториях компании генерируется искусственным интеллектом. По его словам, эффективность таких решений сильно зависит от языка: например, с Python ИИ справляется лучше, а с C++ пока есть сложности. Наделла подчеркнул, что результаты все еще неоднородны, но тенденция очевидна.
Ранее технический директор Microsoft Кевин Скотт прогнозировал, что к 2030 году ИИ будет писать до 95% всего кода. В то же время в Google, по словам CEO Сундара Пичаи, нейросети уже создают более 30% нового кода. Однако методы подсчета у компаний различаются, поэтому точность цифр - под вопросом. Марк Цукерберг, участвовавший в дискуссии, признался, что не знает аналогичных данных для своей компании.
techcrunch.com
JetBrains опубликовала а опенсорс модель Mellum, созданную специально для задач разработки. В отличие от универсальных ИИ, Mellum фокусируется на умном завершении кода. Модель поддерживает Java, Python, Kotlin, Rust и еще десяток языков, а ее компактный размер (4 млрд. параметров) снижает затраты на вычисления. Публикация в открытом доступе — не просто жест доброй воли, в JetBrains верят, что прозрачность ускорит прогресс, как это было с Linux или Docker.
Уже сейчас модель обгоняет некоторых конкурентов в тестах на точность. На Hugging Face доступна базовая версия Mellum: ее можно дорабатывать, изучать или использовать как основу для экспериментов. JetBrains подчеркивает: Mellum — не готовый продукт, а инструмент для тех, кто хочет копать глубже.
blog.jetbrains.com
Anthropic поддержала планы правительства США по ужесточению контроля над экспортом ИИ-чипов, но предложила свои поправки. В заявлении компании отметили, что текущая трехуровневая система (Китай и Россия — третий уровень с самыми жёсткими ограничениями, Мексика и Португалия — второй, Япония и Южная Корея — первый) требует корректировок.
Anthropic предлагает снизить квоты на закупку чипов для стран второго уровня без одобрения властей, чтобы стимулировать их покупать через межправительственные соглашения — это, по мнению компании, уменьшит контрабанду и усилит контроль США. Решения ожидаются к 15 мая — дате вступления правил в силу.
anthropic.com
Фонд Викимедиа представил новую стратегию использования ИИ, сделав ставку не на автоматизацию, а на усиление роли людей. Вместо того чтобы заменять волонтеров-редакторов, ИИ станет их инструментом: он возьмет на себя рутинные задачи, освободив время для творческой работы. Алгоритмы помогут отслеживать правки, ускорят перевод статей между языками и упростят поиск информации в огромной базе данных.
Особый акцент сделан на открытость: разработки будут базироваться на опенсорс-решениях, а все процессы останутся прозрачными. Стратегия не меняет миссию Википедии, а усиливает ее, делая знания доступнее в эпоху, когда ИИ все чаще влияет на информацию. Редакторы остаются главными героями, а технологии — их помощниками.
wikimediafoundation.org
Власти Нью-Йорка тестируют внедрение систем ИИ для «превентивного» анализа поведения людей в метро. Как заявил глава безопасности MTA Майкл Кемпер, камеры с искусственным интеллектом смогут распознавать признаки агрессии или неадекватных действий, если человек ведет себя странно, система отправит сигнал службе безопасности или полиции до эскалации ситуации. «ИИ — это будущее, и мы уже работаем с IT-компаниями над адаптацией технологий под метро», — добавил он, не уточняя деталей. Отдельно глава MTA подчеркнул, что система не использует распознавание лиц, а только анализ действий.
theverge.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72❤22🔥20😁4🤣4💔2🥰1
Media is too big
VIEW IN TELEGRAM
Gemini для GitHub упростит работу с чужим кодом. Интеграция позволяет прикрепить репозиторий к запросу и получить от ИИ помощь: разобраться в структуре проекта, объяснить функции, предложить оптимизацию или найти баги.
Пока функционал ограничен: нельзя просматривать историю коммитов, пул-реквесты или вносить изменения напрямую в репозиторий. Загрузить можно только один проект (до 5000 файлов и 100 МБ), а для приватных репозиториев потребуется привязать GitHub-аккаунт к Google. Импорт доступен через веб-версию Gemini, но начатый диалог можно продолжить в мобильном приложении. Интеграция появится в настройках Gemini в ближайшее время.
9to5google.com
Microsoft выпустила Phi-4-reasoning, Phi-4-reasoning-plus и Phi-4-mini-reasoning с 14 миллиардов параметров у первых двух и 3.6 млрд. у mini.
Phi-4-reasoning-plus обошёл 671-миллиардную DeepSeek-R1 в тестах AIME 2025, а mini-reasoning была создана для работы на смартфонах или IoT-устройствах: она решает задачи от школьного уровня до научных расчетов, не нагружая систему.
Детали создания доступны в техническом отчете, а сами модели - на Azure или HuggingFace.
azure.microsoft.com
Anthropic представила 2 ключевых обновления для своего Claude: интеграцию сторонних сервисов и расширенный инструмент для глубокого анализа. Новая функция "Integrations" позволяет подключать Claude к бизнес-приложениям вроде Confluence, Zapier или PayPal через серверы на базе протокола MCP. Это даст ИИ доступ к данным проектов, автоматизирует задачи и улучшает контекстную работу.
Параллельно запущен Advanced Research: теперь Claude может анализировать сотни источников (включая корпоративные данные и локальные диски) за несколько минут, формируя детальные отчеты со ссылками на источники. Обновление использует «рассуждающие» модели ИИ.
Функции доступны в бета-версии для подписчиков Claude Max, Team и Enterprise, а также скоро появятся в плане Pro. Anthropic также увеличила лимиты для кодинг-инструмента Claude Code.
anthropic.com
Google начал внедрять рекламу в чаты пользователей с некоторыми сторонними ИИ-ассистентами через сеть AdSense. Функция, запущенная в этом году, уже тестировалась с стартапами Ask и Liner. Представитель компании подтвердил: «AdSense для Поиска доступен сайтам, которые хотят показывать релевантную рекламу в своих AI-диалогах».
Этот шаг выглядит попыткой монетизировать растущую популярность ИИ-чатов вроде ChatGPT или Claude, которые постепенно заменяют традиционный поиск. Ранее компания уже добавляла рекламу в ИИ-сниппеты поиска. Однако интеграция с внешними сервисами — новый этап.
bloomberg.com
Facebook-research внесли ключевые изменения в правила конфиденциальности своих умных очков Ray-Ban. С 29 апреля владельцы устройств больше не могут отключать сохранение голосовых записей в облаке — удалить их можно только вручную через настройки. По словам компании, аудио и транскрипты хранятся до года для улучшения продуктов, а случайные активации удаляются через 90 дней.
Фото и видео с камеры очков по-прежнему остаются в галерее смартфона и не используются для обучения ИИ, если не загружены в облачные сервисы компании или сторонние приложения. Однако голосовой помощник теперь всегда активен, пока пользователь не отключит его вручную. Это решение направлено на сбор данных для тренировки алгоритмов.
theverge.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍54❤21🔥18🫡5🥱1
Традиционные модели для поиска информации часто проваливаются в задачах, где нужны глубокие рассуждения: короткие фактологические запросы и простые документы из обучающих данных не учат их работать с многошаговыми вопросами.
ReasonIR был создан, чтобы решить эту проблему через синтетическую генерацию данных. Авторы создали ReasonIR-Synthesizer — пайплайн, который генерирует сложные запросы и «ложные» документы, похожие на полезные, но бесполезные на деле. Это заставляет модель учиться отличать настоящие паттерны, а не хвататься за поверхностные совпадения.
Для обучения тестовой модели ReasonIR-8B использовали контрастивное обучение с «хард негативами» (документами, которые кажутся релевантными, но таковыми не являются). Под капотом — доработанная LLama3.1-8B с двунаправленной маской внимания, обученная на смеси публичных данных (1,3 млн. примеров) и синтетики (около 345 тыс.).
На бенчмарке BRIGHT, (задачи из биологии, экономики и программирования), ReasonIR-8B показала 29.9 nDCG@10 без реранкера и 36.9 — с ним. Для сравнения: BM25, классический алгоритм, дает всего 14.8.
В RAG-сценариях модель подняла точность на MMLU на 6.4%, а на GPQA — на 22.6%, обогнав даже поисковик you.com. Причем чем детальнее переписывался запрос (например, добавлением контекста через GPT-4), тем лучше работала модель — другие ретриверы на длинных запросах «задыхались».
Авторы также оптимизировали вычисления: модель обходит LLM-реранкеры в 200 раз по эффективности, экономя ресурсы без потерь в качестве.
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("reasonir/ReasonIR-8B", torch_dtype="auto", trust_remote_code=True)
query = "The quick brown fox jumps over the lazy dog."
document = "The quick brown fox jumps over the lazy dog."
query_instruction = ""
doc_instruction = ""
model = model.to("cuda")
model.eval()
query_emb = model.encode(query, instruction=query_instruction)
doc_emb = model.encode(document, instruction=doc_instruction)
sim = query_emb @ doc_emb.T
@ai_machinelearning_big_data
#AI #ML #LLM #ReasonIR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥25❤21👏6🕊1🌭1
Media is too big
VIEW IN TELEGRAM
Ideogram представил масштабное обновление своей нейросети для генерации изображений. Версия 3.0 создаёт более фотореалистичные картинки, точнее понимает запросы и предлагает вдвое больше стилей. Теперь можно загрузить до 3-х референсов, чтобы задать стиль генерации, или выбрать готовый из библиотеки.
Новые инструменты: Magic Fill и Extend. Первый позволяет менять или добавлять элементы в готовом изображении, а второй — расширять его за рамки исходного кадра. Для разработчиков открыли API с текстовой генерацией, редактированием, заменой фона и другими функциями. Интегрировать Ideogram 3.0 можно через партнерские платформы: Picsart, Freepik, Replicate и другие.
Ideogram в X (ex-Twitter)
Midjourney тестирует новую функцию, Omni-Reference, которая позволяет тонко настраивать визуальные элементы в создаваемых изображениях. В отличие от старого Character Reference (v6), система теперь поддерживает не только персонажей, но и отдельные объекты — например, можно указать: «Добавь именно этот меч в сцену».
Omni-Reference доступен в веб-интерфейсе сервиса (перетаскивание изображения в зону «omni-reference») или в Discord через параметр
--oref
с URL. Силу влияния reference регулирует параметр --ow
(0–1000): низкие значения подходят для стилизации, а высокие — для сохранения деталей вроде лица или одежды.Midjourney в Discord
Apple совместно с Anthropic готовит обновление Xcode с интеграцией Claude Sonnet. По данным Bloomberg, внутренняя версия уже тестируется сотрудниками: разработчики могут запрашивать код через чат, инспектировать интерфейсы и исправлять ошибки с помощью ИИ. Это ускорит процессы разработки, но пока неясно, когда инструмент станет доступен публично.
Ранее Apple анонсировала Swift Assist, однако проект застопорился из-за частых галлюцинаций ИИ. Сотрудничество с Anthropic должно решить эти проблемы.
macrumors.com
Некоммерческая организация FutureHouse, поддержанная Эриком Шмидтом, запустила платформу с четырьмя ИИ-агентами: Crow, Falcon, Owl и Phoenix. Они помогают анализировать научную литературу, планировать эксперименты и искать данные в специализированных базах. По словам разработчиков, их система использует открытые научные работы и многоэтапный анализ с «прозрачной логикой».
FutureHouse предупреждает, что Phoenix, отвечающий за химические эксперименты, может выдавать некорректные результаты и призывает пользователей делиться обратной связью для доработки.
futurehouse.org
Специалисты из Пенсильванского университета представили революционный фотонный чип, способный обучать нейросети с помощью света. Технология не только ускоряет процесс в разы, но и резко снижает энергозатраты, открывая путь к полностью оптическим вычислениям. В отличие от традиционных электронных чипов, здесь данные обрабатываются световыми импульсами, а не электричеством — это позволяет выполнять сложные нелинейные операции, критичные для глубокого обучения.
Основа инновации — управление светом через специальный полупроводниковый материал. Два луча («signal» и «pump») взаимодействуют, меняя свойства материала в реальном времени. Это дает возможность перепрограммировать чип без изменения его структуры, достаточно настроить параметры «pump»-луча. В тестах система показала 97% точности на задачах с нелинейными границами решений, обойдя цифровые аналоги по эффективности.
Уже сейчас 4 оптических соединения на чипе заменяют 20 электронных, а в будущем технология может масштабироваться для обучения LLM.
scitechdaily.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80🔥35❤28🥰5
Atropos от NousResearch - это гибкий фреймворк для асинхронного управления RL-средами. Его архитектура построена так, чтобы максимизировать эффективность даже в распределенных системах, будь то локальный кластер или облако.
Atropos поддерживает децентрализацию. Он позволяет запускать несколько экземпляров сред (от статических датасетов, интерактивных игр, RLAIF и RLHF до обучения сложным многоэтапным взаимодействиям), которые асинхронно передают данные в центральный узел.
Это избавляет от простоя ресурсов, когда обновления политики модели тормозят из-за ожидания результатов всех окружений. Под капотом — интеграция с любыми API (OpenAI, vLLM, SGLang), позволяя свободу выбора LLM-провайдера без переписывания кода.
Практическая польза протестирована в экспериментах:
Такие результаты достигнуты благодаря многозадачности: фреймворк одновременно управляет разными типами сред, объединяя их в единый тренировочный поток. Вы можете обучать модель на статических данных утром и переключаться на интерактивные игры вечером, не меняя инфраструктуру.
Для разработчиков Atropos предлагает готовые инструменты: от датасетов для тонкой настройки (SFT, DPO) до дебаггеров и визуализации.
Atropos не привязывает вас к конкретному алгоритму RL или инфраструктуре. Запустите 10 экземпляров на ноутбуке или 10 000 через Slurm — фреймворк равномерно распределит нагрузку. Это особенно ценно для исследований: можно быстро экспериментировать с разными подходами, не тратя недели на настройку пайплайнов.
В репозитории есть все, что нужно: коллекция готовых к использованию сред RL, библиотека с базовыми классами и утилитами и примеры конфигураций обучения.
Если хотите понять, как ускорить свои эксперименты с LLM - загляните в документацию проекта, возможно, это именно тот инструмент, который избавит вас от боли асинхронной координации.
@ai_machinelearning_big_data
#AI #ML #LLM #RL #Framework #NousResearch #Atropos
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥46👍29❤19🤣7🐳1