🪰 Виртуальная дрозофила: зачем DeepMind «оживили» плодовую мушку — и что это даёт науке
Кратко: исследователи создали самую точную на сегодня цифровую модель Drosophila melanogaster
Она умеет ходить, летать и ориентироваться в пространстве. Её «тело» рассчитано в физическом движке MuJoCo, а «мозг» — нейросеть, обученная на реальных видеозаписях поведения мух.
🌟 Как это сделали:
1) Физика тела
Исследователи запрограммировали 52 степени свободы суставов, добавили моделирование аэродинамики крыльев и «клейких» лапок-актуаторов, имитирующих силу сцепления с поверхностью.
Источник: Nature
2) Нейроконтроль
Нейросеть обучалась на сотнях видеозаписей реальных траекторий и затем управляла виртуальной мухой в MuJoCo, выбирая, как двигать крыльями и лапками в каждый момент.
3) Зрение
Виртуальные фасеточные глаза передают изображение контроллеру: модель может следовать по заданной траектории и корректировать курс по ходу движения.
4) Открытый код
Весь проект опубликован на GitHub (flybody) под лицензией Apache-2.0 — можно запускать симулятор, писать собственных агентов и экспериментировать с поведением мухи.
✔️ Зачем это нужно
▪️ Нейронаука без электродов.
Модель — это «песочница», в которой можно виртуально перерезать нервы, добавлять шум, менять форму крыла и мгновенно видеть, как это влияет на поведение. Такие эксперименты на живых организмах часто невозможны.
▪️ Тест-полигон для ИИ и робототехники.
Готовая референс-модель движений и сенсорики, вдохновлённая природой — идеальна для обучения автономных систем.
▪️ От мушки к зебре — и дальше.
Методика уже применяется к виртуальным грызунам, а следующим объектом станет зебра-данио (у неё 70 % белков кодируются теми же генами, что у человека). Это даёт уникальную возможность изучить, как мозг приспосабливается к различной морфологии тела — не выходя из симулятора.
Источник: Janelia Research Campus
🔥 Что это даёт
▪️ Исследователи получают бесплатный инструмент для быстрой проверки гипотез о связке «нейроны → движение».
▪️ Робототехники — возможность адаптировать природные механизмы управления и баланса.
▪️ Для нас— ещё один пример того, как ИИ позволяет разбирать живые системы на компоненты, не причиняя вреда природе.
✔️ Посмотреть код, скомпилировать модель и погонять виртуальную мушку можно уже сейчас:
🔜 GitHub
🔜 Статья в Nature
@ai_machinelearning_big_data
#DeepMind #nature #science
Кратко: исследователи создали самую точную на сегодня цифровую модель Drosophila melanogaster
.
Она умеет ходить, летать и ориентироваться в пространстве. Её «тело» рассчитано в физическом движке MuJoCo, а «мозг» — нейросеть, обученная на реальных видеозаписях поведения мух.
1) Физика тела
Исследователи запрограммировали 52 степени свободы суставов, добавили моделирование аэродинамики крыльев и «клейких» лапок-актуаторов, имитирующих силу сцепления с поверхностью.
Источник: Nature
2) Нейроконтроль
Нейросеть обучалась на сотнях видеозаписей реальных траекторий и затем управляла виртуальной мухой в MuJoCo, выбирая, как двигать крыльями и лапками в каждый момент.
3) Зрение
Виртуальные фасеточные глаза передают изображение контроллеру: модель может следовать по заданной траектории и корректировать курс по ходу движения.
4) Открытый код
Весь проект опубликован на GitHub (flybody) под лицензией Apache-2.0 — можно запускать симулятор, писать собственных агентов и экспериментировать с поведением мухи.
▪️ Нейронаука без электродов.
Модель — это «песочница», в которой можно виртуально перерезать нервы, добавлять шум, менять форму крыла и мгновенно видеть, как это влияет на поведение. Такие эксперименты на живых организмах часто невозможны.
▪️ Тест-полигон для ИИ и робототехники.
Готовая референс-модель движений и сенсорики, вдохновлённая природой — идеальна для обучения автономных систем.
▪️ От мушки к зебре — и дальше.
Методика уже применяется к виртуальным грызунам, а следующим объектом станет зебра-данио (у неё 70 % белков кодируются теми же генами, что у человека). Это даёт уникальную возможность изучить, как мозг приспосабливается к различной морфологии тела — не выходя из симулятора.
Источник: Janelia Research Campus
▪️ Исследователи получают бесплатный инструмент для быстрой проверки гипотез о связке «нейроны → движение».
▪️ Робототехники — возможность адаптировать природные механизмы управления и баланса.
▪️ Для нас— ещё один пример того, как ИИ позволяет разбирать живые системы на компоненты, не причиняя вреда природе.
@ai_machinelearning_big_data
#DeepMind #nature #science
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤78🔥48👍25🤔11👌2❤🔥1🤨1
OpenAI открыла доступ к GPT-Image-1 через API — ранее она работала только в ChatGPT.
Стоимость генерации тарифицируется по токенам: текст ($5/млн), ввод изображений ($10/млн), вывод ($40/млн). Одно изображение обходится в $0,02–0,19. Например, картинка 1024×1024 в высоком качестве «съест» 4160 токенов. Модель превосходит Midjourney-v7 в точности следования запросам, но имеет ограничения: плохо распознаёт мелкий текст, нелатинские шрифты, медицинские данные.
Изображения можно загружать через URL или Base64 (PNG, JPEG до 20 МБ). Максимальное разрешение — 768×2000 пикселей. API анализирует объекты, цвета, текст, но не подходит для задач с высокой точностью. Для безопасности добавлены фильтры контента и метаданные C2PA. Тестировать модель можно в Playground OpenAI — подробности в гайдах по работе с API.
openai.com
Suna — открытый ИИ-агент, способный выполнять реальные задачи через чат-интерфейс. В отличие от закрытых коммерческих моделей, Suna работает офлайн, бесплатен и доступен для самостоятельного хостинга.
Suna не просто отвечает на вопросы: он автоматизирует рутину — от парсинга сайтов и генерации отчетов до развертывания веб-приложений. В основе лежит изолированная Docker-среда, React/Next.js для интерфейса и интеграция с LiteLLM, Supabase и Redis. Помимо исходного кода, есть подписка на развернутый у Kortix AI сервис: бесплатно 10 минут в месяц, за 29$ - 4 часа, а за 199\мес - 40 часов работы Suna.
suna.so
Пользователи Firefox теперь могут заглянуть в содержимое ссылки, не открывая ее. Экспериментальная функция в Firefox Labs 138 показывает карточку с заголовком, описанием, временем чтения и тремя ключевыми пунктами, сгенерированными локальной языковой моделью. Все работает через HTTPS-запросы без загрузки страницы или выполнения скриптов — данные парсятся из метатегов Open Graph и Reader View.
Приватность в приоритете: модель SmolLM2-360M (369 МБ) запускается на устройстве через WebAssembly (wllama), избегая передачи данных в облако. Функция пока в тесте: разработчики ждут фидбека об опыте использования от пользователей.
blog.mozilla.org
xAI расширила возможности голосового ассистента Grok: Grok Vision, поддержка многоязыкового аудио и поиск в реальном времени в голосовом режиме. Все это уже доступно пользователям iOS, а для Android-устройств две последние опции открыты только с подпиской SuperGrok. Grok Vision, как заявляют разработчики, позволяет ассистенту анализировать экран смартфона и комментировать происходящее «здесь и сейчас» — например, распознавать объекты или текст.
Ebby Amir (xAI) в X (ex-Twitter)
BMW объявил о партнерстве с DeepSeek для интеграции ИИ-технологий в машины, продаваемые в Китае. Сотрудничество, представленное на Шанхайском автосалоне, направлено на улучшение «Умного персонального ассистента» — система получит новые функции и расширенный доступ к данным.
Интеграция ИИ DeepSeek ускорит переход BMW к «программно-определяемым» автомобилям. Ожидается, что обновления затронут не только ассистента, но и улучшат интерфейсы, а также поддержат более сложные сценарии автономного управления.
bmwblog.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64❤16🔥8🗿2
Исследователи из МiT, Microsoft и Goggle создали фреймворк, который может изменить подход к разработке алгоритмов машинного обучения - I-Con (Information Contrastive Learning).
Он объединил и систематизировал более 20 классических методов ML — от кластеризации до контрастивного обучения в единую структуру, напоминающую периодическую таблицу. Как и ее химический прародитель, эта таблица не только упорядочивает известные алгоритмы, но и указывает на пробелы, где могут существовать еще не открытые методы.
В основе I-Con лежит уравнение, минимизирующее расхождение Кульбака-Лейблера между двумя распределениями: «идеальным» (на основе данных) и тем, что обучает модель. Это уравнение, найденное почти случайно, стало ключом к объединению таких разных подходов, как k-средних, SimCLR и PCA.
Для примера - алгоритм кластеризации в I-Con рассматривается как способ выравнивания распределений сходства точек, а контрастивное обучение — как работа с аугментациями изображений. Такая унификация позволила ресерчерам буквально «скрещивать» методы: комбинация идей из контрастивного обучения и спектральной кластеризации дала новый алгоритм, который на 8% точнее предсказывает классы изображений без меток.
I-Con — не просто теория. В экспериментах на ImageNet-1K фреймворк показал, как перенос приемов между областями машинного обучения улучшает результаты. Например, техника дебайсинга (исправления смещений в данных), изначально созданная для контрастивного обучения, повысила точность кластеризации. А добавление проходов по neighbor propagation в алгоритмы помогло моделям лучше учитывать локальную структуру данных.
Но главное преимущество I-Con — его предсказательная сила. Пустые клетки в таблице указывают на гипотетические алгоритмы, которые ещё предстоит создать. Иными словами, комбинируя подходы из supervised и unsupervised обучения, можно разработать методы, эффективные для задач с частично размеченными данными. Уже сейчас фреймворк помогает избежать «изобретения велосипеда»: вместо того чтобы перебирать варианты наугад, исследователи могут целенаправленно комбинировать элементы из таблицы.
Пока рано говорить, станет ли I-Con общепринятым стандартом, но его потенциал очевиден. Как минимум, он предлагает свежий взгляд на машинное обучение — не как на набор разрозненных алгоритмов, а как на систему со скрытой структурой. И если химики когда-то заполняли пустоты в таблице Менделеева, то ML-исследователи теперь могут делать то же самое — осознанно, а не методом проб и ошибок.
# Clone the repo
git clone https://github.com/ShadeAlsha/ICon.git
cd ICon
# Create a conda env
conda create -n ICon
conda activate ICon
# Install dependencies
pip install -e .
# Evaluate Models
cd ICon
python evaluate.py
# After evaluation, see the results in tensorboard
cd ../logs/evaluate
tensorboard --logdir .
# Train a Model
cd ICon
python train.py
@ai_machinelearning_big_data
#AI #ML #ICon #Framework #Algorithms
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58❤16🔥10🤣4💘2🦄2
Adobe запустила публичную бета-версию веб-приложения Content Authenticity — бесплатного инструмента, который помогает закрепить за контентом «цифровой паспорт» (Content Credentials). С его помощью можно привязать к файлам идентификатор, ссылки на соцсети и даже запретить обучение ИИ на своих работах.
Технология объединяет криптографические метаданные, цифровые отпечатки и невидимые водяные знаки, которые сохраняются даже после скриншотов. Проверить данные можно через Chrome-расширение или Inspect-сервис.
Adobe ведет переговоры с Leica, Nikon, Samsung и OpenAI, чтобы встроить Content Credentials в камеры, смартфоны и ИИ-инструменты. Для авторов это не только защита, но и возможность повысить доверие аудитории. Пользователи, в свою очередь, получат прозрачность: «паспорт» покажет, кто и как создал контент, что особенно актуально в эпоху deepfake-угроз.
blog.adobe.com
Tavus, разработчик в области ИИ-видео, запустила в превью модель Hummingbird-0 — модель для синхронизации движений губ без предварительного обучения. Теперь достаточно одного видео и аудиодорожки, чтобы «оживить» речь человека, сохранив его мимику и качество изображения.
Hummingbird-0 построен на компонентах флагманской модели Phoenix-3 и превосходит аналоги по точности синхронизации (LSE-D — 6,74) и сохранению идентичности (Arcface — 0,84). Интеграция с генераторами видео (Veo или Sora) позволяет добавлять голос даже к «немым» роликам, превращая их в полноценные истории. Модель доступна на платформах Tavus и FAL — попробовать можно уже сегодня.
tavus.io
Game Arena представила исследование, где платформеры и игры-головоломки используются для тестирования фундаментальных моделей. Оказалось, что Claude 3.7 или GPT-4o справляются хуже людей в задачах, требующих быстрой реакции и пространственного мышления - в Tetris модели часто ошибались при выборе блоков, а в Sokoban не могли пройти уровни, которые человек решает за минуты.
Для экспериментов игры адаптировали: добавили модули преобразования изображений в текст, «заморозку» процесса и память для долгосрочного планирования. Лучшие результаты показали модели с усиленным логическим мышлением, но разрыв с человеческим уровнем все еще значителен.
Проект открыт для разработчиков — код доступен на GitHub.
lmgame.org
DeepMind представили обновление платформы Music AI Sandbox, добавив инструменты для генерации и редактирования музыки на базе ИИ. В основе — модель Lyria 2, создающая высококачественные треки с детализацией жанровых нюансов, и Lyria RealTime, позволяющая экспериментировать со звуком в реальном времени.
Новые функции включают генерацию инструментальных партий по текстовым описаниям, расширение композиций и редактирование стиля с помощью текстовых подсказок. Музыканты могут менять темп, тональность или полностью переосмыслить трек. Платформа, разработанная при участии артистов, теперь доступна в США — заявки принимаются через запись в вейтлист.
deepmind
YouTube начал ограниченное тестирование AI Overviews — "карусели" с ключевыми фрагментами видео в результатах поиска. Система анализирует ролики по запросам (например, «лучшие беспроводные наушники» или «музеи Сан-Франциско») и выводит «выжимку» из самых информативных моментов. Пока функция доступна лишь части пользователей YouTube Premium в США и работает на английском языке.
Тестовый период продлится недолго, а его итоги определят судьбу AI Overviews. Пользователи смогут оценивать функцию через лайки/дизлайки, а YouTube — собрать обратную связь для доработки функции.
searchengineland
Работает на базе o4-mini:
Быстрее, дешевле, почти без потерь в качестве.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍44❤17🔥11🤬2😐2
На основе существующих методов Trust Region ученые создали новый метод обучения LLM. С его помощью качество ответов ИИ повышается до 15% по пяти показателям: точность, связность, стиль, логика рассуждений и информативность.
Согласно исследованию, качество текстов по этим критериям превосходило результаты, полученные с использованием традиционных методов оптимизации. Использование нового подхода приводит к снижению эффекта избыточной оптимизации. Модели меньше “зацикливаются” на случайных ошибках и избегают выдачу странных текстов, которые могут выдаваться при обучении на узкопрофильную задачу.
Чтобы избежать избыточной оптимизации ученые ввели периодическое обновление “настроек по умолчанию” модели. Так, она отмечает основные “ориентиры” на своем пути, что помогает избежать отклонений и быстрее достичь целевой точки.
Результаты исследования ученых из лаборатории исследований искусственного интеллекта T-Bank AI Research были вчера представлены на международной конференции по обучению представлениям (ICLR) и признаны мировым научным сообществом.
🔜 Подробнее в полном тексте исследования: https://arxiv.org/abs/2404.09656
@ai_machinelearning_big_data
#news #AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40❤21🔥13🤣10
NVIDIA представила новый подход к обучению моделей для сложных математических задач, заняв первое место в конкурсе Kaggle AIMO-2.
Секрет — в огромном датасете OpenMathReasoning, который состоит из 540 тыс. уникальных задач с Art of Problem Solving, 3,2 млн. многошаговых решений (CoT) и 1,7 млн. примеров с интеграцией кода (TIR).
Для сравнения: это в разы больше, чем в популярных аналогах MATH и GSM8K. Все это дополнено 566 тыс. примеров для обучения генеративному выбору решений (GenSelect) — методу, который лучше, чем классическое голосование большинством.
OpenMathReasoning создавался тщательно и ответственно. Сначала задачи фильтровались через Qwen2.5-32B, чтобы убрать простые или дублирующие бенчмарки. Затем DeepSeek-R1 и QwQ-32B генерировали решения, а итеративная тренировка с жесткой фильтрацией улучшала качество. Например, код в TIR-решениях должен был не просто проверять шаги, а давать принципиально новые вычисления — вроде перебора вариантов или численного решения уравнений.
Модели OpenMath-Nemotron (1,5B–32B параметров), обученные на этом наборе данных показали SOTA-результаты. 14B-версия в режиме TIR решает 76,3% задач AIME24 против 65,8% у базового DeepSeek-R1. А с GenSelect, который анализирует 16 кандидатов за раз, точность взлетает до 90%. Даже 1,5B-модель с GenSelect обгоняет 32B-гиганты в отдельных тестах.
@ai_machinelearning_big_data
#AI #ML #Math #Dataset #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45❤15🔥12
В Москве состоялся Российский саммит и премия CDO/CDTO Summit & Awards 2025 - она присуждается руководителям по цифровизации, а также организациям с наибольшими успехами в области цифровой трансформации.
Сразу две награды в этом году взяла МТС Web Services. Гран-при в номинации «Digital-платформа года» получило решение MWS Octapi. Это платформа, которая позволяет бизнесу бесшовно интегрировать сервисы в экосистему без участия разработчиков и обеспечивать их эффективное взаимодействие.
Кроме того, лауреатом премии CDO/CDTO стал генеральный директор MWS Павел Воронин, который вошел в тройку лучших СЕО 2025 года в номинации «СЕО года цифровой компании».
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19👍12😁3🥱2
Городские пробки, рост выброса CO₂ и тысячи ДТП ежегодно — эти проблемы знакомы каждому мегаполису. В 2023 году в США на дорогах погибло 38,5 тысяч человек, а рост онлайн-коммерции и сервисов шеринга транспорта усложняет логистику.
В Google Research разработали решение: проект Mobility AI, который объединяет последние достижения в ИИ для анализа, моделирования и оптимизации транспортных систем.
В основе проекта — 3 направления: измерение, симуляция и оптимизация.
Mobility AI собирает информацию из Google Maps, датчиков дорожного движения и логи событий резкого торможения (которые, как оказалось, сильно коррелируют с авариями). Эти сведения помогают не только отслеживать пробки в реальном времени, но и прогнозировать риски.
Чтобы тестировать гипотезы на основе собранных данных без риска для реального мира, Google создает цифровых двойников — виртуальные копии транспортных сетей. Раньше такие симуляции работали только на отдельных участках, но теперь их масштабируют до уровня целых городов.
Калибровка "двойников" стала точнее благодаря ML: алгоритмы учитывают не только данные с датчиков, но и обезличенные скорости, маршруты и метео-факторы. Симуляция дает возможность прогнозировать, как повлияет на дорожную ситуацию новый светофор или, скажем, эвакуация при ЧС.
Здесь ИИ предлагает конкретные решения: от перенастройки сигналов светофоров до маршрутов для грузового транспорта. В Сиэтле, например, алгоритмы помогли улучшить транспортные потоки после массовых мероприятий, а в Милл-Вэлли — спланировать эвакуационные пути. Причем система учитывает даже «социальные факторы» (как перенаправление машин повлияет на разные районы).
Уже есть и практические результаты. Благодаря эко-маршрутам в Google Maps только в США удалось избежать выброса 2,9 млн. тонн CO₂, это как будто с дорог убрали 650 тысяч авто. А анализ данных о «жестких торможениях» помогает городам находить аварийно-опасные участки до того, как там произойдет ДТП.
Внедрение таких масштабных технологий требует сотрудничества с городскими властями и Google делает ставку на открытость: сервисы вроде Google Public Sector и инструменты для симуляции уже доступны госструктурам.
Mobility AI — не панацея, но большой шаг вперед. Главное, что Google сочетает науку с практикой: вместо абстрактных теорий создаются работающие модели, которые уже меняют города. Для инженеров и урбанистов это шанс перейти от ситуационного менеджмента к продуманному управлению транспортом.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤37👍21🔥15
Дайджест первого дня ICLR 2025 от делегации Яндекса
✔️ Computer Vision: прорывы в генерации и анализе изображений.
Исследователи представили многомодальную модель Eagle с множеством энкодеров, теоретическое обоснование ограничений диффузионных моделей с тяжёлыми хвостами, метод FreCaS для генерации изображений высокого разрешения и фреймворк FORTE для автоматического обнаружения аутлайеров в данных.
✔️ NLP: оптимизация предпочтений и эффективный инференс.
Предложены новые подходы к DPO с учётом временного затухания для первых токенов, прогрессивная смешанная точность для эффективного инференса LLM, улучшенные метрики для моделей с длинным контекстом и обучение реворд-моделей для предотвращения reward hacking.
✔️ Speech: расширенные бенчмарки и новые токенизации.
Представлен бенчмарк Dynamic-SUPERB Phase-2 со 180 задачами для речевых моделей, предложена токенизация на уровне слогов в SyllableLM, а также доказаны математические гарантии для алгоритма Flow Matching, показывающие одинаковый порядок сходимости с классическими диффузионными процессами.
✔️ RecSys: инновационные архитектуры для рекомендаций.
Разработана архитектура ContextGNN, объединяющая попарный скор и двухбашенный подход, исследовано применение диффузионных моделей в рекомендациях от TikTok, предложены новые методы персонализации для диалоговых агентов и эффективная дистилляция LLM для секвенциальных рекомендаций.
@ai_machinelearning_big_data
#news #AI #ML #LLM
Исследователи представили многомодальную модель Eagle с множеством энкодеров, теоретическое обоснование ограничений диффузионных моделей с тяжёлыми хвостами, метод FreCaS для генерации изображений высокого разрешения и фреймворк FORTE для автоматического обнаружения аутлайеров в данных.
Предложены новые подходы к DPO с учётом временного затухания для первых токенов, прогрессивная смешанная точность для эффективного инференса LLM, улучшенные метрики для моделей с длинным контекстом и обучение реворд-моделей для предотвращения reward hacking.
Представлен бенчмарк Dynamic-SUPERB Phase-2 со 180 задачами для речевых моделей, предложена токенизация на уровне слогов в SyllableLM, а также доказаны математические гарантии для алгоритма Flow Matching, показывающие одинаковый порядок сходимости с классическими диффузионными процессами.
Разработана архитектура ContextGNN, объединяющая попарный скор и двухбашенный подход, исследовано применение диффузионных моделей в рекомендациях от TikTok, предложены новые методы персонализации для диалоговых агентов и эффективная дистилляция LLM для секвенциальных рекомендаций.
@ai_machinelearning_big_data
#news #AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥17❤10😁6🥱1🗿1
Forwarded from Анализ данных (Data analysis)
Media is too big
VIEW IN TELEGRAM
🧩 Rivet — визуальная среда для создания сложных AI-агентов. Этот проект предлагает необычный подход к работе с LLM: вместо написания цепочек промптов в коде, вы собираете их как ноды в визуальном редакторе.
Особенность инструмента возможность встраивать созданные графы прямо в ваше приложение через TypeScript-библиотеку. Это превращает его из просто IDE в инструмент для production-разработки.
🤖 GitHub
@data_analysis_ml
Особенность инструмента возможность встраивать созданные графы прямо в ваше приложение через TypeScript-библиотеку. Это превращает его из просто IDE в инструмент для production-разработки.
🤖 GitHub
@data_analysis_ml
🔥48👍21❤20🤣13
This media is not supported in your browser
VIEW IN TELEGRAM
На конференции Baidu Create 2025 компания анонсировала две новые модели: ERNIE 4.5 Turbo и ERNIE X1 Turbo. Обе версии улучшены в мультимодальности, логике и скорости, а их стоимость снижена: ERNIE X1 Turbo обходится в 4 раза дешевле аналогов (input стоит 1 юань за 1 млн токенов, а output 4 юаня).
Модель ERNIE 4.5 Turbo, по заявлениям, сравнима с GPT-4.1.
Baidu также показала «цифровых людей» с реалистичной речью и внешностью, которых можно создать за две минуты из видео. Также представлен Xinxiang — мультиагентный инструмент для решения сложных задач, от планирования поездок до офисной работы. Уже сейчас он охватывает 200 сценариев, а к 2030 году их станет более 100 тысяч.
Для разработчиков запущена программа AI Open с доступом к трафику и монетизации, а MCP упростит интеграцию сервисов с большими моделями.
prnewswire.com
@ai_machinelearning_big_data
#ERNIE
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍20❤10
📌 Что такое Genie 2
Это автрорегрессивная латентно-диффузионная модель, обученная на огромном видеодатасете. Получив всего одно изображение-подсказку (например, кадр, сгенерированный Imagen 3), Genie 2 разворачивает целый виртуальный мир, в котором можно свободно перемещаться клавиатурой и мышью — как человеку, так и ИИ-агенту. Длительность консистентного эпизода достигает минуты.
Зачем она нужна
Главный барьер в исследованиях «телесных» (embodied) агентов — ограниченный спектр тренировочных сред. Genie 2 снимает это ограничение: модель способна бесконечно генерировать новые ландшафты, объекты, физику и взаимодействия, создавая «безграничный учебник» для RL-агентов.
В работе демонстрируется связка с SIMA — многоцелевым агентом DeepMind: тот получает языковые инструкции («открой синюю дверь») и действует внутри миров, созданных Genie 2. Такое сочетание позволяет быстро генерировать unseen-задачи для оценки или дообучения агентов.
Deepmind
Компании представили проект «Space Llama» — открытую ИИ-модель Llama 3.2, которая отправилась на Международную космическую станцию. Технология должна помочь экипажу в исследованиях на орбите, сократив зависимость от бумажных инструкций и связи с Землей.
Система работает на базе компьютера Spaceborne Computer-2 от Hewlett Packard Enterprise и GPU Nvidia. Это уже второй шаг Booz Allen Hamilton в области космического ИИ: в августе компания развернула первую языковую модель на МКС. Новый стек технологий обещает ускорить реакцию на нештатные ситуации и снизить затраты на вычисления.
cnbc.com
CEO Perplexity Аравинд Шринивас в подкасте TBPN раскрыл планы компании: их новый браузер Comet, запуск которого запланирован на май, будет отслеживать действия пользователей за пределами приложения. Цель — собрать данные о покупках, посещаемых сайтах, отелях и ресторанах, чтобы формировать детальные профили для таргетированной рекламы. По словам Шриниваса, это повысит релевантность объявлений, а пользователи «не будут против».
Comet уже столкнулся с задержками, но команда уверена в сроках. Параллельно Perplexity укрепляет позиции в мобильном сегменте: приложение предустановят на смартфоны Motorola Razr, а с Samsung ведутся переговоры.
techcrunch.com
Сделка оценила проект NousResearch в 1 млрд. долларов. Nous разрабатывает открытые ИИ-модели, конкурирующие с решениями OpenAI, но с упором на распределенные вычисления: вместо дата-центров стартап использует мощности обычных пользователей через блокчейн Solana.
Основатели Nous — исследователи ИИ, ранее выпустившие популярные в opensource-сообществе модели Hermes. Их новый подход позволяет обучать нейросети на «простаивающих» GPU, стимулируя участников криптовалютными вознаграждениями.
fortune.com
Крупный медиа-холдинг Ziff Davis подал иск против OpenAI в федеральный суд Делавэра, обвинив компанию в использовании своих статей для обучения нейросетей без разрешения. По данным иска, OpenAI копировала материалы PCMag, Mashable и IGN — активов Ziff Davis, которые ежегодно публикуют около 2 млн статей. Компания требует компенсацию в сотни миллионов долларов, утверждая, что действия OpenAI нарушают авторские права и вводят пользователей в заблуждение: ChatGPT якобы приписывает Ziff Davis информацию, которую та не публиковала.
OpenAI настаивает, что обучение моделей на публичных данных попадает под «добросовестное использование», критичное для инноваций. Однако Ziff Davis заявляет, что после блокировки GPTBot в мае и августе 2024 года компания продолжила сбор контента.
news.bloomberglaw.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61❤19🤣11🔥9
Kimi-Audio — инструктивная модель с 7 млрд. параметров, разработанная командой MoonshotAI, которая объединяет распознавание речи, анализ аудиоконтента и генерацию ответов в реальном времени в единую архитектуру. Модель показала SOTA-результаты на множестве аудиобенчмарков, от распознавания речи до эмоционального анализа.
Архитектура Kimi-Audio — это 3 компонента:
Отдельного внимания заслуживает пайплайн обучения, к нему команда разработки подошла ответственно и скрупулезно: 13 млн часов аудио были обработаны через автоматический конвейер, включающий шумоподавление, диаризацию и транскрипцию.
Для повышения качества сегменты объединялись по контексту, а транскрипции дополнялись пунктуацией на основе пауз. После предобучения на задачах ASR и TTS модель прошла этап SFT на 300 тыс. часов данных (развернутые диалоги и аудиочаты).
В тестах ASR Kimi-Audio показала: WER 1.28 на LibriSpeech test-clean против 2.37 у Qwen2.5-Omni. В аудиопонимании она лидирует на ClothoAQA (73.18) и MELD (59.13), а в классификации сцен (CochlScene) показывает 80.99 — на 17 пунктов выше ближайшего соперника. В диалогах модель близка к GPT-4o (3.90 против 4.06 по субъективной оценке).
@ai_machinelearning_big_data
#AI #ML #KimiAudio #MoonshotAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥46👍31❤13🥰2