Media is too big
VIEW IN TELEGRAM
Mistral AI выпустила минорное обновление Small, улучшив точность и стабильность. Инструкции теперь выполняются точнее, а повторяющиеся или бесконечные ответы встречаются вдвое реже, вызовы функций стали надежнее за счет более надежных шаблонов.
Размер модели не изменился, 24B, Сравнение в бенчмарках с Small 3.1: в Wildbench v2 результаты выросли до 65.33% (на 10% выше, чем у версии 3.1), а в сложных сценариях Arena Hard v2 модель прибавила почти 24%. В задачах на логику (MMLU Pro) и программирование (HumanEval Plus) показатели улучшились на 2–4%. Правда, в некоторых визуальных тестах (MMMU) показатели снизились, но незначительно.
Модель доступна на Hugging Face, сообщество уже сделало квантованные версии.
huggingface.co
С 7 июля по 6 августа 2025 года платформа постепенно отключит несколько версий моделей OpenAI: GPT-4.5, o1, o3-mini и GPT-4o, их заменят на более новые аналоги, GPT-4.1, о3 или o4-mini.
Администраторам Copilot Enterprise нужно заранее активировать политики доступа к новым моделям в настройках, чтобы они появились в VS Code и интерфейсе GitHub. Удаление устаревших моделей после даты отключения произойдет автоматически.
github.blog
Google выпустила Magenta RealTime (Magenta RT) - открытую ИИ-модель для живого создания музыки. Она генерирует по текстовым запросам и аудиосэмплам (можно комбинировать), используя Transformer с 800 миллионами параметров, обученный на 190 тысячах часов инструментальной музыки.
Код и веса модели доступны на GitHub и Hugging Face. Попробовать Magenta RT в действии можно через бесплатный Colab-ноутбук с поддержкой TPU. Google обещает добавить возможность локального запуска и кастомизацию, а также опубликовать техотчет.
magenta.withgoogle.com
Инсайдеры сообщают, что Apple ведет внутренние обсуждения о возможной покупке стартапа Perplexity. Глава M&A Адриан Перича и руководитель сервисов Эдди Кью уже обсудили идею с командой по вопросам ИИ. Пока переговоры находятся на ранней стадии, а официального предложения сделано не было.
Согласно источникам, компания планирует внедрить ИИ-поиск в Safari, чтобы снизить зависимость от Google. Это решение может стать частью стратегии диверсификации ИИ-продуктов перед запуском новых функций в будущих версиях iOS или macOS.
reuters.com
Оригинальный WormGPT, созданный на основе GPT-J, стал первым массовым инструментом для киберпреступников, позволяя генерировать вредоносный код и фишинговые письма без цензуры. После его закрытия в 2023 году на форумах появились новые варианты: один работает на Grok от xAI, другой на Mixtral от Mistral AI. Вместо создания собственных моделей злоумышленники адаптируют существующие, используя jailbreak-промты, чтобы обойти защитные механизмы.
Анализ, проведенный Cato CTRL показал, что keanu-WormGPT - это обертка Grok с измененным системным промтом, заставляющим нейросеть игнорировать ограничения. xzin0vich-WormGPT, в свою очередь, основан на Mixtral и обучен на данных с дарквеба. Оба проекта распространяются через Telegram-боты по подписке, коммерциализируя генерацию фишинга и вредоносного кода как услугу.
catonetworks.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤37👍19🔥6🥰3🌭2
Reinforcement Learning Teachers (RLT) от Sakana AI - метод обучения LLM рассуждениям, где компактная модель-"учитель" не решает задачи сама, а учится объяснять уже готовые решения так, чтобы студент-модель лучше их усваивала.
Вместо дорогого обучения "с нуля" через проб и ошибку (как в классическом RL), учитель фокусируется на ясности пошаговых пояснений, используя и вопрос, и правильный ответ как подсказку. Это радикально удешевляет процесс и выравнивает цель учителя быть полезным студенту.
Архитектура строится вокруг петли обратной связи. Учителю (например, крошечной модели на 7B параметров) на вход подаются и задача и ее верное решение. Его работа - сгенерировать максимально понятное пошаговое объяснение, как прийти от условия к ответу.
Эффективность учителя измеряется не тем, решил ли он задачу сам (он даже не обязан это уметь), а тем, насколько хорошо студент-модель понимает его объяснение. Ключевая метрика - "логарифмические вероятности": чем выше вероятность, что студент, прочитав объяснение учителя, правильно предскажет следующий шаг или итоговый ответ, тем лучше работа учителя. Это и есть сигнал подкрепления для обучения RLT.
Вся магия метода состоит в этом смещении фокуса RL. Вместо чтоб награждать модель за самостоятельное нахождение ответа (что требует огромных вычислительных ресурсов и приводит к "узкой" специализации), RLT поощряют за педагогическую эффективность.
Благодаря наличию готового ответа во время обучения, в роли учителя могут выступать даже небольшие, дешевые модели, которые не смогли бы решить сложные задачи в одиночку. Объяснения от RLT затем используются как высококачественные данные для обучения (дистилляции или "холодного старта") студент-моделей любого размера.
Главный нюанс: метод требует наличия готовых правильных решений для задач в обучающем наборе. Он не заменяет полностью сбор данных, а перепрофилирует их для обучения "преподаванию".
Пока метод тестировался в основном на задачах математики и естественных наук. Но его сила в эффективности: 7B RLT-учитель превосходит в обучении студентов-гигантов ( 671B DeepSeek R1). Он обучает даже студентов крупнее себя (32B) быстрее (менее суток против месяцев) и лучше, а его объяснения четче, без лишнего "шума" вроде юмора или подсказок калькулятора, свойственных традиционным RL-моделям.
@ai_machinelearning_big_data
#AI #ML #LLM #RL #RLT #SakanaAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤45🔥28👍11🫡3🤔2🌭2✍1
Основная идея VLMgineer - путь к роботам, которые сами изобретают нужные приборы под конкретные задачи, экономя время инженеров и расширяя границы автоматизации.
Что это
● Фреймворк, объединяющий Vision-Language-модель и эволюционный поиск.
● Полностью автоматизирует два процесса:
1) проектирует физический инструмент;
2) пишет пошаговый план, как этим инструментом пользоваться.
Как это работает
1️⃣ VLM получает описание задачи («забей гвоздь», «разбей лёд») и создаёт начальный эскиз инструмента + набор движений робота.
2️⃣ Симуляция проверяет, насколько успешно связка «инструмент + действие» решает задачу.
3️⃣ Эволюционный алгоритм вносит правки (меняет форму, размеры, материалы), VLM уточняет план.
4️⃣ Цикл повторяется, пока не найден оптимальный дизайн.
Никаких шаблонов и ручной настройки — всю «физическую креативность» выполняет модель.
Исследователи протестировали возможности VLMgineer по созданию инструментов и планов действий в сравнении с тремя типами участников:
• специалист по LLM
• эксперт по робототехнике
• обычный человек без технического бэкграунда
📊 Результаты:
VLMgineer показал на 64,7% более высокий средний успех выполнения задач, чем решения, предложенные людьми, скоро обещают дропнуть код проекта.
@ai_machinelearning_big_data
#ai #robots #vlm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤45👍21🔥13⚡1🥰1🌭1
🤖 Gemini Robotics: автономный AI для роботов
Google представили Gemini Robotics On-Device — первую модель, объединяющую зрение, язык и действия, которая работает прямо на роботах, без постоянного подключения к интернету.
🔍 Что делает эту модель особенной:
🔹 Объединяет универсальность и точность Gemini, но работает локально
🔹 Моделька справляется со сложными задачами с двумя руками (манипуляции, сборка, перенос)
🔹 Обучается новым действиям всего по 50–100 демкам
Модель уже поддерживает разные типы роботов — от гуманоидов до промышленных двухруких манипуляторов. И это несмотря на то, что изначально она была обучена только на датасете ALOHA под управлением человеческих инструкций.
🛠 В догонку выпустили SDK Gemini Robotics — для разработчиков, которые хотят дообучить модель под свои нужды, включая тесты в физическом симуляторе MuJoCo.
🌐 Полностью автономная работа — идеально для кейсов с плохой связью или требованиями к высокой скорости отклика.
Gemini Robotics продолжает двигаться к будущему, где AI становится частью физического мира.
👉 Подробнее: https://goo.gle/gemini-robotics-on-device
@ai_machinelearning_big_data
#ai #robots #vlm #google #Gemini
Google представили Gemini Robotics On-Device — первую модель, объединяющую зрение, язык и действия, которая работает прямо на роботах, без постоянного подключения к интернету.
🔍 Что делает эту модель особенной:
🔹 Объединяет универсальность и точность Gemini, но работает локально
🔹 Моделька справляется со сложными задачами с двумя руками (манипуляции, сборка, перенос)
🔹 Обучается новым действиям всего по 50–100 демкам
Модель уже поддерживает разные типы роботов — от гуманоидов до промышленных двухруких манипуляторов. И это несмотря на то, что изначально она была обучена только на датасете ALOHA под управлением человеческих инструкций.
🛠 В догонку выпустили SDK Gemini Robotics — для разработчиков, которые хотят дообучить модель под свои нужды, включая тесты в физическом симуляторе MuJoCo.
🌐 Полностью автономная работа — идеально для кейсов с плохой связью или требованиями к высокой скорости отклика.
Gemini Robotics продолжает двигаться к будущему, где AI становится частью физического мира.
👉 Подробнее: https://goo.gle/gemini-robotics-on-device
@ai_machinelearning_big_data
#ai #robots #vlm #google #Gemini
❤40👍25🔥10🥰2
В этом году конфа для AI и ML- разработчиков пройдет в кластере “Ломоносов” 19 июля. В программе предусмотрено 5 блоков: NLP, CV & Speech, RecSys, Research & RnD, а центральной темой станет разработка LLM-приложений и Copilot-решений.
На Turbo ML Conf 2025 соберутся более 1000 техлидов AI/ML-команд, ML-инженеров, исследователей, Go и Python-разработчиков, и других ИТ-специалистов из ведущих компаний России. Гости услышат десятки докладов и кейсов от более, чем 30 экспертов из Т-Банка, Яндекса, Авито, Сбера, VK, МТС и других ИТ-корпораций и университетов.
Первое из них — LLM Applications & Copilots. Оно посвящено разработке LLM-платформ, архитектуре решений, тулингу, агентным системам, RAG и LLM для разработки программного обеспечения. Второе направление NLP — обработка естественного языка, а также автоматизация поддержки, alignment, рассуждающие и мультимодальные LLM, mechanistic interpretability естественного языка.
Третье — CV & Speech – синтез и распознавание речи, audio-to-audio-модели и LLM для распознавания и генерации аудио, генеративные сети, VLM, OCR и другие темы. Четвертым направлением станет RecSys, то есть рекомендательные системы, инсайты из продовых A/B-тестов, применение нейросетей для разных этапов систем, применение графовых нейронных сетей и другие темы.
Финальное направление Research & RnD посвящено фундаментальным и прикладным исследованиям в России, мультимодальным LLM, alignment, и mechanistic interpretability.
Они расскажут, как строить масштабируемые решения и применять ML в реальных продуктах, поделятся результатами последних научных исследований и объяснят, как технологии влияют на бизнес-задачи. О подготовке LLM в эпоху сильного Open Source расскажет Анатолий Потапов из Т-Банка. Егор Швецов из AIRI даст совет по достижению компромиссов между безопасностью и эффективностью при сжатии моделей, а Сергей Овчаренко из Яндекса поделится результатами 3-летнего обучения диффузионных моделей.
Гости смогут проконсультироваться с HR в IT, создать ML-комиксы и диджитал-сканворд в творческой зоне, пообщаться с другими участниками и отдохнуть на афтепати с DJ-сетами, настольными играми, лото и стильным мерчем.
Онлайн-трансляция в этот раз проводиться не будет, поэтому участие в конференции возможно только очно – бесплатно по предварительной регистрации.
@ai_machinelearning_big_data
#news #ai #ml #ai #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤33👍23😁9😢6🥰5
Forwarded from Анализ данных (Data analysis)
⚡ OmniGen2
Что умеет:
• Генерация и редактирование изображений по текстовому описанию
• Поддержка разрешения до 1024×1024
• Полностью open-source: модель, код и веса
• Лицензия Apache 2.0
• Можно вызвать модель через MCP — просто запусти с
📌 Тестим здесь: https://huggingface.co/spaces/OmniGen2/OmniGen2
@data_analysis_ml
Что умеет:
• Генерация и редактирование изображений по текстовому описанию
• Поддержка разрешения до 1024×1024
• Полностью open-source: модель, код и веса
• Лицензия Apache 2.0
• Можно вызвать модель через MCP — просто запусти с
.launch(mcp_server=True)
📌 Тестим здесь: https://huggingface.co/spaces/OmniGen2/OmniGen2
@data_analysis_ml
❤39👍19🔥12
This media is not supported in your browser
VIEW IN TELEGRAM
🤖🚀 iRonCub3: Первый робот, взлетевший на реактивной тяге
Учёные из AMI Lab впервые в истории подняли гуманоидного робота в воздух с помощью реактивных двигателей.
Робот iRonCub3 поднялся на ~50 см, оставаясь устойчивым в воздухе — всё это благодаря:
🔸 интеллектуальной системе управления
🔸 точной аэродинамической модели
🔸 адаптивной стабилизации в реальном времени
Маленький шажок к будущему, где гуманоиды смогут летать и выполнять миссии в экстремальных условиях.
@ai_machinelearning_big_data
#роботы #технологии #реактивныйвзлет #гуманоид #инновации #инженерия
Учёные из AMI Lab впервые в истории подняли гуманоидного робота в воздух с помощью реактивных двигателей.
Робот iRonCub3 поднялся на ~50 см, оставаясь устойчивым в воздухе — всё это благодаря:
🔸 интеллектуальной системе управления
🔸 точной аэродинамической модели
🔸 адаптивной стабилизации в реальном времени
Маленький шажок к будущему, где гуманоиды смогут летать и выполнять миссии в экстремальных условиях.
@ai_machinelearning_big_data
#роботы #технологии #реактивныйвзлет #гуманоид #инновации #инженерия
🔥42❤18👍12🌭4👻1
Media is too big
VIEW IN TELEGRAM
Microsoft представила мини-модель Mu с 330 млн. параметров для локальной работы на NPU в Windows Settings. На чипах Qualcomm модель показывает в 4,7 раза быстрее генерацию токенов, чем аналоги. Mu адаптировали под особенности NPU: настроили размеры слоев, применили квантование весов до 8-16 бит и уменьшили потребление памяти.
Mu уже используется в агенте Settings, который преобразует запросы вроде «увеличь яркость» в системные команды. Модель обучали на 3,6 млн примеров, добавили синтетические данные и шум, чтобы повысить точность. Результат: ответы за 500 мс даже на сложных задачах. При этом Mu в 10 раз меньше Phi-3.5-mini, но сохраняет конкурентную производительность.
blogs.windows.com
Prime Intellect запустила SYNTHETIC-2, децентрализованную систему генерации для обучения ИИ. Проект позволяет любым GPU, от бытовых до промышленных, присоединиться к генерации данных. Управляет процессом TOPLOC v2, технология, которая проверяет корректность вычислений через хэширование активаций и распределяет награды за успешные результаты.
Датасет включает более 20 задач: математика, генерация JSON и неформальные задания для разнообразия данных. Верификация работает через сравнение ответов разных моделей (Qwen3, DeepSeek и др.). Все данные доступны на HuggingFace.
Присоединиться может любой желающий, арендовав ресурсы через Prime Intellect или подключив собственные GPU. Цель проекта - ускорить развитие открытой суперинтеллектуальной системы, где контроль распределен, а технологии общедоступны.
primeintellect.ai
«The Dream Recorder», открытый DIY-гаджет от компании Modem Works, превращающий воспоминания о снах в короткие фильмы с помощью ИИ. Устройство использует Raspberry Pi, микрофон и экран, а его стоимость сборки составляет около $310. После пробуждения пользователь рассказывает сон, который транскрибируется и отправляется в ChatGPT, а затем в Luma AI для генерации видео. Итоговый ролик сохраняется в цифровой дневник.
Проект сочетает DIY-культуру и доступные технологии, демонстрируя, как ИИ может визуализировать субъективный опыт. Все схемы и исходники доступны на GitHub, включая 3D-модели для печати. Примерная стоимость записи одного сна составляет $0.15, что делает эксперименты с памятью и сознанием доступными. И это не прототип, а рабочее решение, которое можно собрать самостоятельно.
dreamrecorder.ai
Исследователь Синькай Ю из DeepSeek разработал nano-vLLM, облегченный движок для работы с LLM. Он написан на Python вручную, объемом всего 1,2 тыс. строк кода, и воспроизводит основные функции оригинального vLLM.
nano-vLLM поддерживает кэширование префиксов, тензорный параллелизм, компиляцию с torch.compile и CUDA Graphs. Это позволяет достичь скорости, близкой к vLLM, но без сложных алгоритмов планирования задач или динамического батчинга. Зато разработчики получают четкую архитектуру в одном месте: токенизатор, управление кэшем и механизм выборки токенов. Проект подойдет для исследований, обучения или небольших систем, где важна простота.
github.com
По данным источников, OpenAI разрабатывает продвинутые функции для ChatGPT, превращая его в платформу для командной работы. Пользователи смогут группировать чаты, загружать файлы, использовать голосовой ввод и сохранять контекст диалогов. Все это позиционируется как альтернатива офисным пакетам. Мобильное приложение получит поддержку загрузок и переключения моделей на лету.
Этот проект, задуманный в 2024 году, активно развивается сейчас и OpenAI видит в ChatGPT «операционную систему для жизни», интегрируемую в рабочие процессы. Microsoft, поддерживающий стартап, теперь рискует стать конкурентом самому себе, а Google получает нового серьезного оппонента.
theinformation.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍70❤34🔥10
VideoPrism - базовый визуальный энкодер от Google. Это универсальный инструмент, способный разобраться в самых разных нюансах видеоконтента: от простого распознавания объектов до генерации описаний или ответов на вопросы.
По заявлению создателей, VideoPrism демонстрирует топовые результаты на 31 из 33 общедоступных бенчмарков. В тестах на zero-shot, VideoPrism обошел аналоги в задачах классификации (Kinetics-600) и ответов на вопросы (MSRVTT-QA), даже не используя дополнительных модальностей вроде аудио.
В основе VideoPrism - ViT, но с существенными модификациями, учитывающими специфику видеоданных. В его создании инженеры Google DeepMind применили так называемый "факторизованный" подход, разделяя обработку пространственных и временных измерений и исключили слой глобального усреднения, чтобы сохранить максимум информации из каждого кадра и его временной позиции.
Секрет эффективности VideoPrism кроется в его тщательно продуманном двухэтапном методе обучения на гигантском корпусе данных в 600+ миллионов пар "видео-текст" и чуть менее миллиарда "изображение-текст" из набора данных WebLI:
На первом этапе модель осуществляет своего рода "синхронизацию" между видео- и текстовым энкодерами. Используя огромные массивы пар "видео-текст", они учатся сопоставлять визуальные данные с их семантическими описаниями посредством контрастивного обучения. Это позволяет видеоэнкодеру освоить основные визуальные концепции.
На втором этапе обучение продолжается уже исключительно на видеоданных, применяя усовершенствованную технику маскированного моделирования. Здесь часть видеороликов подвергается маскированию, а VideoPrism должен восстановливать скрытые части.
Token shuffling (предотвращает "копипасту" ошибок декодера) и global-local distillation (перенос знаний из первого этапа), помогают VideoPrism одновременно усваивать детали изображений и тонкости движений, избегая при этом "катастрофического забывания".
@ai_machinelearning_big_data
#AI #ML #Encoder #VideoPrism #Google #DeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33❤13🔥11🥰1