This media is not supported in your browser
VIEW IN TELEGRAM
Представьте, что учите язык не по учебникам, а через ситуации, в которых оказываетесь каждый день. Именно эту идею воплотила команда Google в проекте Little Language Lessons— трех экспериментах на базе Gemini API, которые делают обучение живым и контекстным.
Первый эксперимент, Tiny Lesson, решает проблему «как сказать это сейчас?». Вы описываете ситуацию — например, «потерял паспорт» — и получаете словарь и фразы в формате JSON. Всё благодаря промптам, где Gemini генерирует структурированные данные: массив терминов с транскрипцией и переводом, а также советы по грамматике.
Например, если целевой язык — японский, модель сама определит, нужна ли транскрипция ромадзи, и подготовит материал за 2 API-запроса. Это не просто список слов, а готовый микрокурс под конкретный сценарий.
Второй, Slang Hang, убирает «учебникоговорение». Тут Gemini выступает как сценарист: создаёт диалоги на целевом языке с культурными нюансами и сленгом. Все генерируется одним запросом — от контекста сцены до реплик с пояснениями. Пример: диалог продавца и туриста может включать неформальные выражения, которые не найдешь в стандартных учебниках.
Правда, иногда модель ошибается или придумывает выражения, так что без проверки носителем не обойтись. Но сам подход — дать пользователю «уши» в реальных разговорах выглядит перспективно, особенно с интеграцией Cloud Translation для мгновенного перевода.
Третий, визуальный эксперимент — Word Cam. Наводите камеру на объект, и Gemini не только определяет его (bounding box), но и предлагает слова вроде «подоконник» или «жалюзи». Детекция работает через Gemini Vision, а дополнительные дескрипторы (цвет, материал, примеры употребления) подтягиваются отдельным запросом. Для изучения бытовой лексики почти идеально, хотя точность сильно зависит от качества снимка.
Во всех экспериментах задействован Text-to-Speech — озвучка слов и фраз. Но есть нюанс: для редких языков голоса зачастую звучат неестественно или не совпадают с диалектом. Например, выберете мексиканский испанский, а синтезатор выдаст акцент из Мадрида. Разработчики честно признают: это ограничение текущих API, и над ним еще работать.
Little Language Lessons — начало переосмысления процесса обучения языкам. Проекту пока не хватает тонкой настройки под лингвистическую специфику (идиомы или региональные диалекты), но основа уже заложена.
@ai_machinelearning_big_data
#AI #ML #LLM #Gemini
Please open Telegram to view this post
VIEW IN TELEGRAM
❤66👍29🔥20🌭3
Xiaomi выпустила в опенсорсный релиз MiMo-7B — набор языковых моделей, созданных для решения сложных задач, от математики до генерации кода.
Несмотря на скромные 7 млрд. параметров, модель демонстрирует результаты, превосходящие 32B-конкурентов, разрушая стереотипы о зависимости качества от размера.
Создание MiMo началось с предтрейна на 25 трлн. токенов, где акцент был на повышении плотности логических паттернов.
Для этого разработчики пересмотрели обработку данных: улучшили извлечение математических формул и блоков кода из веб-страниц, добавили синтетические данные, сгенерированные топовыми ризонинг-моделями, и все это обработали уникальной стратегией смешивания.
На первых этапах доля STEM-контента достигала 70%, а на финальном — добавили синтетику и расширили контекст до 32K токенов.
Обучение с подкреплением на стадии посттренинга проводили на массиве из 130 тыс. задач, где каждая проверялась автоматически. Чтобы избежать reward hacking, использовали только rule-based награды.
Для сложных задач по программированию ввели систему частичных баллов (как на олимпиадах по информатике) - даже если решение не идеально, модель получает feedback за пройденные тесты. А чтобы RL не застревал на простых примерах, добавили ресэмплинг: 10% данных брали из пула уже решенных задач, балансируя эффективность и стабильность обучения.
Результаты бенчмарков: на LiveCodeBench v6 MiMo-7B-RL набрала 49.3%, обойдя QwQ-32B на 10 пунктов, а на AIME 2025 — 55.4%, оставив позади OpenAI o1-mini. При этом базовая версия модели уже показывала 75.2% на BBH, что выше аналогов своего класса.
⚠️ Разработчики рекомендуют использовать для локального инференса их форк vLLM , он поддерживает MTP (Multiple-Token Prediction), но и на HF Transformers инференс тоже работает.
@ai_machinelearning_big_data
#AI #ML #LLM #RL #Xiaomi #MiMo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤86👍36🔥22🤔3😨3
🔋 Экономия памяти: по сравнению с 7B-версией модель потребляет на 50 % меньше VRAM при обработке длинного контекста (~25 000 токенов).
📺 Мультимодальные режим: поддержка 30-секундных аудио- и видео«из коробки» на 24 GB видеокартах.
🤖 Высокое качество: модель сохраняет свыше 90 % точности ответов и обеспечивает естественный, стабильный синтез речи на уровне 7B-модели.
#Qwen #omni #opensource
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51❤29🔥18
На прошлой неделе завершился финал Всероссийской олимпиады по математике. В Яндекс Образовании спросили у студентов AI360, какие у них воспоминания об участии в олимпиадах и что они посоветуют будущим финалистам.
AI360 — это совместная программа бакалавриата от Яндекса, Сбера и четырёх топовых российских вузов — ИТМО, ВШЭ, МФТИ и Иннополис — для будущих архитекторов и исследователей ИИ. В этом году к партнерам добавится еще и СПбГУ. Кстати, 40% студентов AI360 — победители и призеры Всероссийской олимпиады по математике и информатике.
Новый набор в этом году будет больше в полтора раза! Стартует летом, подробности по ссылке.
AI360 — это совместная программа бакалавриата от Яндекса, Сбера и четырёх топовых российских вузов — ИТМО, ВШЭ, МФТИ и Иннополис — для будущих архитекторов и исследователей ИИ. В этом году к партнерам добавится еще и СПбГУ. Кстати, 40% студентов AI360 — победители и призеры Всероссийской олимпиады по математике и информатике.
Новый набор в этом году будет больше в полтора раза! Стартует летом, подробности по ссылке.
👌35👍20❤16🌭2
🚀Масштабная архитектура на базе, которая содержит 671 млрд параметров, что в 96 раз больше, чем у предыдущей версии Prover-V1.5 (7 млрд).
Построен на базе архитектуры «смеси экспертов» (MoE), что снижает затраты на обучение и повышает эффективность решения задач.
Модель заточена на формальное доказательство теорем с помощью языка программирования Lean 4, обеспечивая 100% логическую точность.
Lean 4 — это зависимо типизированный функциональный язык программирования и интерактивное средство доказательства теорем.
Результаты:
• Новая Sota( 88,9%) на MiniF2F-test.
• DeepSeek-Prover-V2 смогла доказать 49 теорем из 658.
Для тренировки использовались 8 млн синтетических примеров, созданных через рекурсивный поиск решений теорем.
🔍 Как это работает:
1) Разложение теорем: DeepSeek-V3 по prompt'у разбивает сложные задачи на подцели.
2) Формализация: Пошаговые рассуждения переводятся в доказательства на Lean 4.
3) Cold-start: Полученные цепочки рассуждений и формальные доказательства используются как начальные данные для обучения модели.
• 7 B — базовый вариант.
• 671 B — расширенная версия на базе DeepSeek-V3-Base.
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B
@ai_machinelearning_big_data
#DeepSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
👍89🔥36❤21👌5😍5
Media is too big
VIEW IN TELEGRAM
На конференции LlamaCon Сатья Наделла, глава Microsoft, заявил, что 20–30% кода в репозиториях компании генерируется искусственным интеллектом. По его словам, эффективность таких решений сильно зависит от языка: например, с Python ИИ справляется лучше, а с C++ пока есть сложности. Наделла подчеркнул, что результаты все еще неоднородны, но тенденция очевидна.
Ранее технический директор Microsoft Кевин Скотт прогнозировал, что к 2030 году ИИ будет писать до 95% всего кода. В то же время в Google, по словам CEO Сундара Пичаи, нейросети уже создают более 30% нового кода. Однако методы подсчета у компаний различаются, поэтому точность цифр - под вопросом. Марк Цукерберг, участвовавший в дискуссии, признался, что не знает аналогичных данных для своей компании.
techcrunch.com
JetBrains опубликовала а опенсорс модель Mellum, созданную специально для задач разработки. В отличие от универсальных ИИ, Mellum фокусируется на умном завершении кода. Модель поддерживает Java, Python, Kotlin, Rust и еще десяток языков, а ее компактный размер (4 млрд. параметров) снижает затраты на вычисления. Публикация в открытом доступе — не просто жест доброй воли, в JetBrains верят, что прозрачность ускорит прогресс, как это было с Linux или Docker.
Уже сейчас модель обгоняет некоторых конкурентов в тестах на точность. На Hugging Face доступна базовая версия Mellum: ее можно дорабатывать, изучать или использовать как основу для экспериментов. JetBrains подчеркивает: Mellum — не готовый продукт, а инструмент для тех, кто хочет копать глубже.
blog.jetbrains.com
Anthropic поддержала планы правительства США по ужесточению контроля над экспортом ИИ-чипов, но предложила свои поправки. В заявлении компании отметили, что текущая трехуровневая система (Китай и Россия — третий уровень с самыми жёсткими ограничениями, Мексика и Португалия — второй, Япония и Южная Корея — первый) требует корректировок.
Anthropic предлагает снизить квоты на закупку чипов для стран второго уровня без одобрения властей, чтобы стимулировать их покупать через межправительственные соглашения — это, по мнению компании, уменьшит контрабанду и усилит контроль США. Решения ожидаются к 15 мая — дате вступления правил в силу.
anthropic.com
Фонд Викимедиа представил новую стратегию использования ИИ, сделав ставку не на автоматизацию, а на усиление роли людей. Вместо того чтобы заменять волонтеров-редакторов, ИИ станет их инструментом: он возьмет на себя рутинные задачи, освободив время для творческой работы. Алгоритмы помогут отслеживать правки, ускорят перевод статей между языками и упростят поиск информации в огромной базе данных.
Особый акцент сделан на открытость: разработки будут базироваться на опенсорс-решениях, а все процессы останутся прозрачными. Стратегия не меняет миссию Википедии, а усиливает ее, делая знания доступнее в эпоху, когда ИИ все чаще влияет на информацию. Редакторы остаются главными героями, а технологии — их помощниками.
wikimediafoundation.org
Власти Нью-Йорка тестируют внедрение систем ИИ для «превентивного» анализа поведения людей в метро. Как заявил глава безопасности MTA Майкл Кемпер, камеры с искусственным интеллектом смогут распознавать признаки агрессии или неадекватных действий, если человек ведет себя странно, система отправит сигнал службе безопасности или полиции до эскалации ситуации. «ИИ — это будущее, и мы уже работаем с IT-компаниями над адаптацией технологий под метро», — добавил он, не уточняя деталей. Отдельно глава MTA подчеркнул, что система не использует распознавание лиц, а только анализ действий.
theverge.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72❤22🔥20😁4🤣4💔2🥰1
Media is too big
VIEW IN TELEGRAM
Gemini для GitHub упростит работу с чужим кодом. Интеграция позволяет прикрепить репозиторий к запросу и получить от ИИ помощь: разобраться в структуре проекта, объяснить функции, предложить оптимизацию или найти баги.
Пока функционал ограничен: нельзя просматривать историю коммитов, пул-реквесты или вносить изменения напрямую в репозиторий. Загрузить можно только один проект (до 5000 файлов и 100 МБ), а для приватных репозиториев потребуется привязать GitHub-аккаунт к Google. Импорт доступен через веб-версию Gemini, но начатый диалог можно продолжить в мобильном приложении. Интеграция появится в настройках Gemini в ближайшее время.
9to5google.com
Microsoft выпустила Phi-4-reasoning, Phi-4-reasoning-plus и Phi-4-mini-reasoning с 14 миллиардов параметров у первых двух и 3.6 млрд. у mini.
Phi-4-reasoning-plus обошёл 671-миллиардную DeepSeek-R1 в тестах AIME 2025, а mini-reasoning была создана для работы на смартфонах или IoT-устройствах: она решает задачи от школьного уровня до научных расчетов, не нагружая систему.
Детали создания доступны в техническом отчете, а сами модели - на Azure или HuggingFace.
azure.microsoft.com
Anthropic представила 2 ключевых обновления для своего Claude: интеграцию сторонних сервисов и расширенный инструмент для глубокого анализа. Новая функция "Integrations" позволяет подключать Claude к бизнес-приложениям вроде Confluence, Zapier или PayPal через серверы на базе протокола MCP. Это даст ИИ доступ к данным проектов, автоматизирует задачи и улучшает контекстную работу.
Параллельно запущен Advanced Research: теперь Claude может анализировать сотни источников (включая корпоративные данные и локальные диски) за несколько минут, формируя детальные отчеты со ссылками на источники. Обновление использует «рассуждающие» модели ИИ.
Функции доступны в бета-версии для подписчиков Claude Max, Team и Enterprise, а также скоро появятся в плане Pro. Anthropic также увеличила лимиты для кодинг-инструмента Claude Code.
anthropic.com
Google начал внедрять рекламу в чаты пользователей с некоторыми сторонними ИИ-ассистентами через сеть AdSense. Функция, запущенная в этом году, уже тестировалась с стартапами Ask и Liner. Представитель компании подтвердил: «AdSense для Поиска доступен сайтам, которые хотят показывать релевантную рекламу в своих AI-диалогах».
Этот шаг выглядит попыткой монетизировать растущую популярность ИИ-чатов вроде ChatGPT или Claude, которые постепенно заменяют традиционный поиск. Ранее компания уже добавляла рекламу в ИИ-сниппеты поиска. Однако интеграция с внешними сервисами — новый этап.
bloomberg.com
Facebook-research внесли ключевые изменения в правила конфиденциальности своих умных очков Ray-Ban. С 29 апреля владельцы устройств больше не могут отключать сохранение голосовых записей в облаке — удалить их можно только вручную через настройки. По словам компании, аудио и транскрипты хранятся до года для улучшения продуктов, а случайные активации удаляются через 90 дней.
Фото и видео с камеры очков по-прежнему остаются в галерее смартфона и не используются для обучения ИИ, если не загружены в облачные сервисы компании или сторонние приложения. Однако голосовой помощник теперь всегда активен, пока пользователь не отключит его вручную. Это решение направлено на сбор данных для тренировки алгоритмов.
theverge.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍54❤21🔥18🫡5🥱1
Традиционные модели для поиска информации часто проваливаются в задачах, где нужны глубокие рассуждения: короткие фактологические запросы и простые документы из обучающих данных не учат их работать с многошаговыми вопросами.
ReasonIR был создан, чтобы решить эту проблему через синтетическую генерацию данных. Авторы создали ReasonIR-Synthesizer — пайплайн, который генерирует сложные запросы и «ложные» документы, похожие на полезные, но бесполезные на деле. Это заставляет модель учиться отличать настоящие паттерны, а не хвататься за поверхностные совпадения.
Для обучения тестовой модели ReasonIR-8B использовали контрастивное обучение с «хард негативами» (документами, которые кажутся релевантными, но таковыми не являются). Под капотом — доработанная LLama3.1-8B с двунаправленной маской внимания, обученная на смеси публичных данных (1,3 млн. примеров) и синтетики (около 345 тыс.).
На бенчмарке BRIGHT, (задачи из биологии, экономики и программирования), ReasonIR-8B показала 29.9 nDCG@10 без реранкера и 36.9 — с ним. Для сравнения: BM25, классический алгоритм, дает всего 14.8.
В RAG-сценариях модель подняла точность на MMLU на 6.4%, а на GPQA — на 22.6%, обогнав даже поисковик you.com. Причем чем детальнее переписывался запрос (например, добавлением контекста через GPT-4), тем лучше работала модель — другие ретриверы на длинных запросах «задыхались».
Авторы также оптимизировали вычисления: модель обходит LLM-реранкеры в 200 раз по эффективности, экономя ресурсы без потерь в качестве.
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("reasonir/ReasonIR-8B", torch_dtype="auto", trust_remote_code=True)
query = "The quick brown fox jumps over the lazy dog."
document = "The quick brown fox jumps over the lazy dog."
query_instruction = ""
doc_instruction = ""
model = model.to("cuda")
model.eval()
query_emb = model.encode(query, instruction=query_instruction)
doc_emb = model.encode(document, instruction=doc_instruction)
sim = query_emb @ doc_emb.T
@ai_machinelearning_big_data
#AI #ML #LLM #ReasonIR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥25❤21👏6🕊1🌭1
Media is too big
VIEW IN TELEGRAM
Ideogram представил масштабное обновление своей нейросети для генерации изображений. Версия 3.0 создаёт более фотореалистичные картинки, точнее понимает запросы и предлагает вдвое больше стилей. Теперь можно загрузить до 3-х референсов, чтобы задать стиль генерации, или выбрать готовый из библиотеки.
Новые инструменты: Magic Fill и Extend. Первый позволяет менять или добавлять элементы в готовом изображении, а второй — расширять его за рамки исходного кадра. Для разработчиков открыли API с текстовой генерацией, редактированием, заменой фона и другими функциями. Интегрировать Ideogram 3.0 можно через партнерские платформы: Picsart, Freepik, Replicate и другие.
Ideogram в X (ex-Twitter)
Midjourney тестирует новую функцию, Omni-Reference, которая позволяет тонко настраивать визуальные элементы в создаваемых изображениях. В отличие от старого Character Reference (v6), система теперь поддерживает не только персонажей, но и отдельные объекты — например, можно указать: «Добавь именно этот меч в сцену».
Omni-Reference доступен в веб-интерфейсе сервиса (перетаскивание изображения в зону «omni-reference») или в Discord через параметр
--oref
с URL. Силу влияния reference регулирует параметр --ow
(0–1000): низкие значения подходят для стилизации, а высокие — для сохранения деталей вроде лица или одежды.Midjourney в Discord
Apple совместно с Anthropic готовит обновление Xcode с интеграцией Claude Sonnet. По данным Bloomberg, внутренняя версия уже тестируется сотрудниками: разработчики могут запрашивать код через чат, инспектировать интерфейсы и исправлять ошибки с помощью ИИ. Это ускорит процессы разработки, но пока неясно, когда инструмент станет доступен публично.
Ранее Apple анонсировала Swift Assist, однако проект застопорился из-за частых галлюцинаций ИИ. Сотрудничество с Anthropic должно решить эти проблемы.
macrumors.com
Некоммерческая организация FutureHouse, поддержанная Эриком Шмидтом, запустила платформу с четырьмя ИИ-агентами: Crow, Falcon, Owl и Phoenix. Они помогают анализировать научную литературу, планировать эксперименты и искать данные в специализированных базах. По словам разработчиков, их система использует открытые научные работы и многоэтапный анализ с «прозрачной логикой».
FutureHouse предупреждает, что Phoenix, отвечающий за химические эксперименты, может выдавать некорректные результаты и призывает пользователей делиться обратной связью для доработки.
futurehouse.org
Специалисты из Пенсильванского университета представили революционный фотонный чип, способный обучать нейросети с помощью света. Технология не только ускоряет процесс в разы, но и резко снижает энергозатраты, открывая путь к полностью оптическим вычислениям. В отличие от традиционных электронных чипов, здесь данные обрабатываются световыми импульсами, а не электричеством — это позволяет выполнять сложные нелинейные операции, критичные для глубокого обучения.
Основа инновации — управление светом через специальный полупроводниковый материал. Два луча («signal» и «pump») взаимодействуют, меняя свойства материала в реальном времени. Это дает возможность перепрограммировать чип без изменения его структуры, достаточно настроить параметры «pump»-луча. В тестах система показала 97% точности на задачах с нелинейными границами решений, обойдя цифровые аналоги по эффективности.
Уже сейчас 4 оптических соединения на чипе заменяют 20 электронных, а в будущем технология может масштабироваться для обучения LLM.
scitechdaily.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80🔥35❤28🥰5