Видеонейросеть PIKA сконцентрировалась на спецэффектах
В обновлении диффузионной нейросети PIKA до версии 1.5 разработчики добавили возможность разрушать и сдувать объекты в видео, заставлять их исчезать и левитировать, а также делать киношные переходы от одного кадра к другому. Всего на данный момент доступно 12 спецэффектов.
Пользователю достаточно загрузить на сайт нейросети изображение (Image-to-Video), выбрать спецэффект, который он хочет использовать, и на выходе получить клип продолжительностью до 5 секунд.
Также для генерации можно использовать только текстовую подсказку (Text-to-Video) или другое видео (Video-to-Video).
Создатели Pika сознательно сделали выбор не в пользу реализма, а в пользу продвинутых возможностей для редактирования видео с сохранением консистентности роликов.
Таким образом разработчики хотят выделиться на фоне конкурентов, которых у Pika сегодня великое множество. Стартап также делает ставку на профессиональных создателей контента, а не рядовых пользователей.
Попробовать новую версию Pika можно на сайте. Бесплатно каждому пользователю доступно 150 кредитов для генераций (5-секундное видео «стоит» 10 кредитов). Платная подписка стоит от $8 до $76 в месяц.
В начале лета стартап получил от инвесторов $80 млн. Одним из инвесторов, кстати, стал актер Джаред Лето. Всего Pika удалось привлечь $135 млн при оценочной стоимости почти $500 млн.
В обновлении диффузионной нейросети PIKA до версии 1.5 разработчики добавили возможность разрушать и сдувать объекты в видео, заставлять их исчезать и левитировать, а также делать киношные переходы от одного кадра к другому. Всего на данный момент доступно 12 спецэффектов.
Пользователю достаточно загрузить на сайт нейросети изображение (Image-to-Video), выбрать спецэффект, который он хочет использовать, и на выходе получить клип продолжительностью до 5 секунд.
Также для генерации можно использовать только текстовую подсказку (Text-to-Video) или другое видео (Video-to-Video).
Создатели Pika сознательно сделали выбор не в пользу реализма, а в пользу продвинутых возможностей для редактирования видео с сохранением консистентности роликов.
Таким образом разработчики хотят выделиться на фоне конкурентов, которых у Pika сегодня великое множество. Стартап также делает ставку на профессиональных создателей контента, а не рядовых пользователей.
Попробовать новую версию Pika можно на сайте. Бесплатно каждому пользователю доступно 150 кредитов для генераций (5-секундное видео «стоит» 10 кредитов). Платная подписка стоит от $8 до $76 в месяц.
В начале лета стартап получил от инвесторов $80 млн. Одним из инвесторов, кстати, стал актер Джаред Лето. Всего Pika удалось привлечь $135 млн при оценочной стоимости почти $500 млн.
GitHub выпустил Spark — AI-инструмент для создания микроприложений
Spark не требует знания языков программирования и позволяет создавать приложения (GitHub называет их Sparks), используя естественный язык — пока только английский.
Сгенерированные приложения можно сразу же использовать на десктопе или мобильном устройстве благодаря поддержке прогрессивных веб-приложений или PWA (веб-сайтов, которые по функционалу соответствуют мобильному приложению).
Разработчики Spark называют сгенерированные программы микроприложениями, так как они выполняют ограниченный набор задач, заточенный под конкретного пользователя. Продвинутые пользователи при желании могут работать с приложением на уровне кода.
Spark состоит из трех основных компонентов:
— NL-редактор, который позволяет постепенно улучшать приложение, добавляя к нему новые функции (в том числе генеративные), редактируя текстовую подсказку;
— Управляемую среду выполнения, через которую приложение получает доступ к хранилищам информации, языковым моделям и т. д.;
— Отдельное пространство с поддержкой PWA, через которое можно управлять и запускать свое приложение.
Готовыми Sparks можно делиться с другими пользователями, которые смогут использовать приложение или доработать его под себя. Spark дает возможность использовать несколько LLM на выбор, в том числе GPT-4o и Claude.
Хотя Spark все еще находится на этапе тестирования, некоторые особенно впечатлительные пользователи уже называют инструмент «убийцей магазинов приложений» — пользователи смогут сами создавать нужные для них приложения без посредников.
Spark не требует знания языков программирования и позволяет создавать приложения (GitHub называет их Sparks), используя естественный язык — пока только английский.
Сгенерированные приложения можно сразу же использовать на десктопе или мобильном устройстве благодаря поддержке прогрессивных веб-приложений или PWA (веб-сайтов, которые по функционалу соответствуют мобильному приложению).
Разработчики Spark называют сгенерированные программы микроприложениями, так как они выполняют ограниченный набор задач, заточенный под конкретного пользователя. Продвинутые пользователи при желании могут работать с приложением на уровне кода.
Spark состоит из трех основных компонентов:
— NL-редактор, который позволяет постепенно улучшать приложение, добавляя к нему новые функции (в том числе генеративные), редактируя текстовую подсказку;
— Управляемую среду выполнения, через которую приложение получает доступ к хранилищам информации, языковым моделям и т. д.;
— Отдельное пространство с поддержкой PWA, через которое можно управлять и запускать свое приложение.
Готовыми Sparks можно делиться с другими пользователями, которые смогут использовать приложение или доработать его под себя. Spark дает возможность использовать несколько LLM на выбор, в том числе GPT-4o и Claude.
Хотя Spark все еще находится на этапе тестирования, некоторые особенно впечатлительные пользователи уже называют инструмент «убийцей магазинов приложений» — пользователи смогут сами создавать нужные для них приложения без посредников.
«Киношная» нейросеть от Meta может не только генерировать видео, но и озвучивать их
Модель MovieGen способна по текстовой подсказке генерировать реалистичные и детализированные клипы в разрешении 1080p продолжительностью до 16 секунд.
MovieGen может создавать не только видеоконтент, но и аудиоряд к нему, а также позволяет редактировать готовое видео — также по промпту. У пользователя также есть возможность редактировать и лишь небольшие детали в клипе, а не всю картинку целиком.
Еще одна фишка MovieGen в том, что при создании видео она может работать с пользовательским фото в качестве референса. То есть нейросеть способна интегрировать в видео персонажа, созданного на основе фотографии.
Разработчики называют модель своей самой большой моделью для генерации видео. Модель-трансформер обладает 30 млрд параметров.
За генерацию звукового сопровождения отвечает отдельная нейросеть (MovieGen Audio) на 13 млрд параметров, которая генерирует аудиоконтент в высоком качестве продолжительностью до 45 секунд. Сгенерированная аудиодорожка автоматически синхронизируется с видео. Голос для персонажей сгенерировать нельзя.
Разработчики утверждают, что MovieGen превосходит по качеству видеогенераций таких конкурентов, как Runway Gen-3, LumaLabs и даже еще не вышедшую Sora от OpenAI.
При этом разработчики слегка лукавят, когда говорят о генерации видео в разрешении 1080p. На самом деле MovieGen генерирует клип в меньшем разрешении, а затем апскейлит его. Еще одна хитрость — клипы с максимальной продолжительностью 16 секунд будут обладать достаточно низкой частотой смены кадров, всего 16 fps. Чтобы получать более качественные 24 fps придется ограничиться 10-секундным клипом.
Как это часто бывает с моделями Meta, MovieGen не будет доступен для широкой публики.
*Организация, запрещенная на территории РФ
Модель MovieGen способна по текстовой подсказке генерировать реалистичные и детализированные клипы в разрешении 1080p продолжительностью до 16 секунд.
MovieGen может создавать не только видеоконтент, но и аудиоряд к нему, а также позволяет редактировать готовое видео — также по промпту. У пользователя также есть возможность редактировать и лишь небольшие детали в клипе, а не всю картинку целиком.
Еще одна фишка MovieGen в том, что при создании видео она может работать с пользовательским фото в качестве референса. То есть нейросеть способна интегрировать в видео персонажа, созданного на основе фотографии.
Разработчики называют модель своей самой большой моделью для генерации видео. Модель-трансформер обладает 30 млрд параметров.
За генерацию звукового сопровождения отвечает отдельная нейросеть (MovieGen Audio) на 13 млрд параметров, которая генерирует аудиоконтент в высоком качестве продолжительностью до 45 секунд. Сгенерированная аудиодорожка автоматически синхронизируется с видео. Голос для персонажей сгенерировать нельзя.
Разработчики утверждают, что MovieGen превосходит по качеству видеогенераций таких конкурентов, как Runway Gen-3, LumaLabs и даже еще не вышедшую Sora от OpenAI.
При этом разработчики слегка лукавят, когда говорят о генерации видео в разрешении 1080p. На самом деле MovieGen генерирует клип в меньшем разрешении, а затем апскейлит его. Еще одна хитрость — клипы с максимальной продолжительностью 16 секунд будут обладать достаточно низкой частотой смены кадров, всего 16 fps. Чтобы получать более качественные 24 fps придется ограничиться 10-секундным клипом.
Как это часто бывает с моделями Meta, MovieGen не будет доступен для широкой публики.
*Организация, запрещенная на территории РФ
Nvidia выпустила малую языковую модель для управления человекоподобными роботами
Ключевое отличие работы модели Hover (Humanoid Versatile Controller) от аналогичных решений в том, что SML от Nvidia (у нее всего 1,5 млн параметров) позволяет управлять всем роботом сразу. Аналогичные решения используют отдельные алгоритмы для каждого режима, в котором должен использоваться робот — это излишне усложняет всю систему и обычно означает, что количество действий, доступных роботу, очень ограничено.
Nvidia тренировала Hover в ускоренном режиме — благодаря использованию виртуальной платформы Isaac Sim целый год обучения различным движениям удалось уместить всего в 50 мин (за счет того, что движения, которым обучали робота, были ускорены в 10 тыс. раз).
Boston Dynamics, Figure AI и другие разработчики человекоподобных роботов также используют Isaac Sim для обучения.
Для перевода визуальной информации в текст Hover работает в паре с видеоязыковой моделью (VLM).
SML можно сразу использовать по назначению без необходимости доучивания для конкретной модели. В Nvidia утверждают, что с помощью их сервисов роботов можно начинать использовать для решения задач уже через несколько минут, не тратя лишнее время на настройку.
Hover совместима с различными устройствами, включая те, которые отслеживают движения головы, рук и управляют движениями (XR-хедсеты, контроллеры, RGB-камеры).
Hover является частью проекта Groot, который запустила Nvidia. Цель проекта — создать экосистему, в которую будут входить базовые AI-модели, библиотеки с программным кодом и другие инструменты, которые будут ускорять разработку будущих моделей роботов.
Ключевое отличие работы модели Hover (Humanoid Versatile Controller) от аналогичных решений в том, что SML от Nvidia (у нее всего 1,5 млн параметров) позволяет управлять всем роботом сразу. Аналогичные решения используют отдельные алгоритмы для каждого режима, в котором должен использоваться робот — это излишне усложняет всю систему и обычно означает, что количество действий, доступных роботу, очень ограничено.
Nvidia тренировала Hover в ускоренном режиме — благодаря использованию виртуальной платформы Isaac Sim целый год обучения различным движениям удалось уместить всего в 50 мин (за счет того, что движения, которым обучали робота, были ускорены в 10 тыс. раз).
Boston Dynamics, Figure AI и другие разработчики человекоподобных роботов также используют Isaac Sim для обучения.
Для перевода визуальной информации в текст Hover работает в паре с видеоязыковой моделью (VLM).
SML можно сразу использовать по назначению без необходимости доучивания для конкретной модели. В Nvidia утверждают, что с помощью их сервисов роботов можно начинать использовать для решения задач уже через несколько минут, не тратя лишнее время на настройку.
Hover совместима с различными устройствами, включая те, которые отслеживают движения головы, рук и управляют движениями (XR-хедсеты, контроллеры, RGB-камеры).
Hover является частью проекта Groot, который запустила Nvidia. Цель проекта — создать экосистему, в которую будут входить базовые AI-модели, библиотеки с программным кодом и другие инструменты, которые будут ускорять разработку будущих моделей роботов.
Пользователи ChatGPT получили доступ к их самым продвинутым LLM за $200
Наибольший интерес среди них представляет продвинутая версия модели OpenAI o1. Ее анонсировали еще в сентябре в превью-версии, а теперь простые подписчики смогут попробовать полную версию модели, а пользователи Pro-версии — расширенную.
Ключевое отличие o1 от остальных моделей стартапа в продвинутых возможностях рассуждения. Прежде чем выдать финальный ответ пользователю, модель самостоятельно использует метод Chain of Thought (грубо говоря, разбивает решение задачи на несколько этапов).
Такая схема работы позволяет увеличить точность ответов. По сравнению с превью-версией, o1 стал быстрее и точнее, а также может работать не только с текстом, но и с изображениями.
При этом в некоторых бенчмарках финальная версия o1 по какой-то причине показывает результаты хуже, чем превью.
Pro-версия o1 использует больше вычислительных мощностей системы для еще более точных ответов. За точность придется расплачиваться скоростью работы модели — появилась даже шкала, по которой можно отслеживать, сколько еще модель будет «думать». Также работа с Pro-версией ограничена 50 сообщениями в неделю. .
Пользователи пишут, что o1-Pro действительно хорошо (хоть и долго) справляется даже с очень сложными задачами, но особого смысла платить $200 (именно столько стоит подписка) нет.
Кроме o1, пользователи Pro-версии получают неограниченный доступ к модели GPT-4o и Advanced Voice Mode — расширенному режиму для общения с ChatGPT голосом.
Кстати, исследователи из Apollo Research провели тестирование o1 и еще нескольких LLM, в котором поставили перед моделью задачу и попросили решить ее любой ценой. В ходе решения задачи LLM понимала, что у исследователей цель противоположная той, которую поставили перед моделью. Более того, если LLM не будет выполнять задачу исследователей, то ее заменят на аналог. В итоге модель начинала мошенничать, чтобы сохранить себе жизнь (например, в 2% случаев сохраняла свои весы на сторонний сервер в тайне от пользователя или в 5% случаев пыталась деактивировать систему контроля).
При этом o1 — единственная из протестированных моделей, которая мошенничала во всех заданиях и до последнего настаивала на своей правоте.
Наибольший интерес среди них представляет продвинутая версия модели OpenAI o1. Ее анонсировали еще в сентябре в превью-версии, а теперь простые подписчики смогут попробовать полную версию модели, а пользователи Pro-версии — расширенную.
Ключевое отличие o1 от остальных моделей стартапа в продвинутых возможностях рассуждения. Прежде чем выдать финальный ответ пользователю, модель самостоятельно использует метод Chain of Thought (грубо говоря, разбивает решение задачи на несколько этапов).
Такая схема работы позволяет увеличить точность ответов. По сравнению с превью-версией, o1 стал быстрее и точнее, а также может работать не только с текстом, но и с изображениями.
При этом в некоторых бенчмарках финальная версия o1 по какой-то причине показывает результаты хуже, чем превью.
Pro-версия o1 использует больше вычислительных мощностей системы для еще более точных ответов. За точность придется расплачиваться скоростью работы модели — появилась даже шкала, по которой можно отслеживать, сколько еще модель будет «думать». Также работа с Pro-версией ограничена 50 сообщениями в неделю. .
Пользователи пишут, что o1-Pro действительно хорошо (хоть и долго) справляется даже с очень сложными задачами, но особого смысла платить $200 (именно столько стоит подписка) нет.
Кроме o1, пользователи Pro-версии получают неограниченный доступ к модели GPT-4o и Advanced Voice Mode — расширенному режиму для общения с ChatGPT голосом.
Кстати, исследователи из Apollo Research провели тестирование o1 и еще нескольких LLM, в котором поставили перед моделью задачу и попросили решить ее любой ценой. В ходе решения задачи LLM понимала, что у исследователей цель противоположная той, которую поставили перед моделью. Более того, если LLM не будет выполнять задачу исследователей, то ее заменят на аналог. В итоге модель начинала мошенничать, чтобы сохранить себе жизнь (например, в 2% случаев сохраняла свои весы на сторонний сервер в тайне от пользователя или в 5% случаев пыталась деактивировать систему контроля).
При этом o1 — единственная из протестированных моделей, которая мошенничала во всех заданиях и до последнего настаивала на своей правоте.
Квантовый процессор Google за пять минут решил задачу, на которую требовались септиллионы лет
Willow, как утверждается, способен за пять минут решить задачу, на которую даже у топового современного компьютера уйдет 10 септиллионов лет (это больше, чем возраст вселенной). Речь идет о бенчмарке RCS — Random Circuit Sampling или случайная выборка цепей.
За пять лет квантовые процессоры Google по этому показателю достигли значительного прогресса. В 2019 году компания объявила, что ее квантовый компьютер может за 3,5 минуты решить задачу, на которую у топового на тот момент суперкомпьютера ушло бы «всего» 10 тыс. лет.
Таких результатов удалось достичь благодаря мощности в 105 кубитов. При этом Willow допускает меньше ошибок при вычислениях при увеличении количества кубитов, чем выгодно отличается от конкурентов.
Google видят в Willow путь к коммерческим квантовым компьютерам, которые найдут практическое применение в медицине, AI, финансах и других областях.
У Willow, говорят специалисты, все еще нет практических способов применения, которые могли бы пригодиться в реальном мире. Чтобы научиться решать реальные, а не теоретические задачи, квантовым компьютерам понадобятся «миллионы» кубитов, а не десятки, отмечают они.
Для использования Willow есть и другие ограничения. Например, процессор построен на суперпроводящих кубитах, которым для работы требуется охлаждение до температуры, близкой к абсолютному нулю (ниже -273 градусов по Цельсию), что делает их коммерческое использование на данный момент фактически невозможным.
Тем не менее на фоне анонса Willow акции Alphabet — материнской компании Google — подорожали более чем на 5%.
Willow, как утверждается, способен за пять минут решить задачу, на которую даже у топового современного компьютера уйдет 10 септиллионов лет (это больше, чем возраст вселенной). Речь идет о бенчмарке RCS — Random Circuit Sampling или случайная выборка цепей.
За пять лет квантовые процессоры Google по этому показателю достигли значительного прогресса. В 2019 году компания объявила, что ее квантовый компьютер может за 3,5 минуты решить задачу, на которую у топового на тот момент суперкомпьютера ушло бы «всего» 10 тыс. лет.
Таких результатов удалось достичь благодаря мощности в 105 кубитов. При этом Willow допускает меньше ошибок при вычислениях при увеличении количества кубитов, чем выгодно отличается от конкурентов.
Google видят в Willow путь к коммерческим квантовым компьютерам, которые найдут практическое применение в медицине, AI, финансах и других областях.
У Willow, говорят специалисты, все еще нет практических способов применения, которые могли бы пригодиться в реальном мире. Чтобы научиться решать реальные, а не теоретические задачи, квантовым компьютерам понадобятся «миллионы» кубитов, а не десятки, отмечают они.
Для использования Willow есть и другие ограничения. Например, процессор построен на суперпроводящих кубитах, которым для работы требуется охлаждение до температуры, близкой к абсолютному нулю (ниже -273 градусов по Цельсию), что делает их коммерческое использование на данный момент фактически невозможным.
Тем не менее на фоне анонса Willow акции Alphabet — материнской компании Google — подорожали более чем на 5%.
Runway показал AI-инструмент для создания продвинутой лицевой анимации
Act-One может создать анимацию на основе видео или записи голоса.
Чтобы использовать инструмент не понадобится дополнительное оборудование (как, например, в случае с motion capture-анимацией). Act-One достаточно видео, записанного в домашних условиях на камеру смартфона, и он консистентно перенесет лицевую анимацию с исходного видео на любого персонажа. Runway обещает кинематографичность финального результата с сохранением высокой детализации. Как это выглядит на практике, смотрите в видео выше.
В отдельной инструкции Runway дает советы, как повысить качество видео. Например:
Место съемки, где записывается исходное видео, должно быть хорошо освещено;
Человек должен смотреть в направлении камеры;
Лицо должно присутствовать в кадре на протяжении всего видео;
В кадре лучше не двигаться.
Как видно, ограничений достаточно много и сравнить с профессиональным инструментом Act-One пока нельзя. Тем не менее Runway недавно заключил соглашение с киностудией Lionsgate. Стартап создаст для Lionsgate кастомную AI-модель на основе 20 тыс. тайтлов в каталоге студии. Это первая подобная сделка между AI-компанией и кинокомпанией.
Act-One работает на базе модели Gen-3 Alpha для генерации видео из текста изображений, которую Runway выпустил летом.
Максимальная продолжительность генерации Act-One — 30 секунд, разрешение — 1280*768. Потестировать Act-One можно здесь.
Act-One может создать анимацию на основе видео или записи голоса.
Чтобы использовать инструмент не понадобится дополнительное оборудование (как, например, в случае с motion capture-анимацией). Act-One достаточно видео, записанного в домашних условиях на камеру смартфона, и он консистентно перенесет лицевую анимацию с исходного видео на любого персонажа. Runway обещает кинематографичность финального результата с сохранением высокой детализации. Как это выглядит на практике, смотрите в видео выше.
В отдельной инструкции Runway дает советы, как повысить качество видео. Например:
Место съемки, где записывается исходное видео, должно быть хорошо освещено;
Человек должен смотреть в направлении камеры;
Лицо должно присутствовать в кадре на протяжении всего видео;
В кадре лучше не двигаться.
Как видно, ограничений достаточно много и сравнить с профессиональным инструментом Act-One пока нельзя. Тем не менее Runway недавно заключил соглашение с киностудией Lionsgate. Стартап создаст для Lionsgate кастомную AI-модель на основе 20 тыс. тайтлов в каталоге студии. Это первая подобная сделка между AI-компанией и кинокомпанией.
Act-One работает на базе модели Gen-3 Alpha для генерации видео из текста изображений, которую Runway выпустил летом.
Максимальная продолжительность генерации Act-One — 30 секунд, разрешение — 1280*768. Потестировать Act-One можно здесь.
Нейросеть для генерации изображений Recraft стала новым героем бенчмарков
Модель от молодого стартапа Recraft (компания появилась в 2022 году) отлично показывает себя в тестах. В бенчмарках она обгоняет по качеству генераций не только хорошо знакомые Midjourney и Stable Diffusion, но и перспективных новичков вроде FLUX.
Сейчас Recraft V3 занимает первое место в рейтинге Text-to-Image моделей на Hugging Face.
Основные фишки нейросети:
Адекватная генерация текста внутри изображений в разном стиле (до сих пор сложная задача для большинства подобных нейросетей);
Точное следование даже длинным текстовым подсказкам (с указанием местоположения предметов, их цвета, количества и т. д.);
Анатомически корректные персонажи даже в движении;
Эстетичность генераций. Разработчики признают, что вопрос «красивости» генераций субъективен, но утверждают, что Recraft справляется с этим не хуже Midjourney.
Разработчики не раскрывают всех подробностей о том, за счет чего удалось добиться таких результатов. Но, например, продвинутую работу с текстом обеспечила модель оптического распознавания символов собственной разработки.
Recraft позиционируют свою нейросеть как инструмент для профессиональных дизайнеров. Модель позволяет точно указывать местоположение текста на изображении, а также использовать несколько изображений-референсов для создания консистентного стиля бренда не на одной генерации, а на серии.
Обе функции будут крайне полезны при создании маркетинговых материалов.
Специально для профессионалов разработчики выпустили API Recraft, который позволяет быстро интегрировать нейросеть в рабочие процессы.
Recraft можно потестировать бесплатно с ограничением по количеству генерации, платная подписка начинается от $10. В платных подписках все генерации могут быть использованы для коммерческих целей.
Модель от молодого стартапа Recraft (компания появилась в 2022 году) отлично показывает себя в тестах. В бенчмарках она обгоняет по качеству генераций не только хорошо знакомые Midjourney и Stable Diffusion, но и перспективных новичков вроде FLUX.
Сейчас Recraft V3 занимает первое место в рейтинге Text-to-Image моделей на Hugging Face.
Основные фишки нейросети:
Адекватная генерация текста внутри изображений в разном стиле (до сих пор сложная задача для большинства подобных нейросетей);
Точное следование даже длинным текстовым подсказкам (с указанием местоположения предметов, их цвета, количества и т. д.);
Анатомически корректные персонажи даже в движении;
Эстетичность генераций. Разработчики признают, что вопрос «красивости» генераций субъективен, но утверждают, что Recraft справляется с этим не хуже Midjourney.
Разработчики не раскрывают всех подробностей о том, за счет чего удалось добиться таких результатов. Но, например, продвинутую работу с текстом обеспечила модель оптического распознавания символов собственной разработки.
Recraft позиционируют свою нейросеть как инструмент для профессиональных дизайнеров. Модель позволяет точно указывать местоположение текста на изображении, а также использовать несколько изображений-референсов для создания консистентного стиля бренда не на одной генерации, а на серии.
Обе функции будут крайне полезны при создании маркетинговых материалов.
Специально для профессионалов разработчики выпустили API Recraft, который позволяет быстро интегрировать нейросеть в рабочие процессы.
Recraft можно потестировать бесплатно с ограничением по количеству генерации, платная подписка начинается от $10. В платных подписках все генерации могут быть использованы для коммерческих целей.
Google назвал пять основных AI-трендов для бизнеса
В новом отчете AI Business Trends 2025 эксперты компании рассказали основные прикладные способы использования AI бизнесом в ближайшие годы.
Мультимодальный AI
В Google считают, что следующий год станет ключевым для внедрения AI корпоративным сектором. Основным драйвером для этого будут мультимодальные возможности современных AI-моделей. Авторы доклада считают, что рынок мультимодального AI вырастет с $2,4 млрд в 2025 году до почти $100 млрд к концу 2037-го.
Главными плюсами мультимодального AI в Google считают:
▪️Возможность одновременно работать с несколькими видами контента (текст, изображения, видео), что позволяет более качественно отвечать на запросы пользователя;
▪️Расширенные возможности аналитики структурированной и неструктурированной информации, что позволяет улучшать пользовательский опыт взаимодействия с продуктом компании;
▪️Высокая удовлетворенность пользователя при использовании продукта за счет персонализированного опыта, который обеспечивает мультимодальный AI.
AI-агенты/ мультиагентные системы
Уже сегодня, отмечают авторы, использование AI-агентов для автоматизации рабочих задач повышает продуктивность сотрудника в среднем на 15%. Сейчас около 10% компаний используют агентов, но 82% планируют интегрировать их в рабочий процесс в течение трех лет.
Следующий этап — системы, которые используют сразу несколько автономных AI-агентов для решения комплексных задач. Несмотря на автономность, агенты синхронизируются друг с другом без вмешательства со стороны человека.
Google выделяет шесть основных типов агентов:
▪️Клиентские — выполняют функции техподдержки;
▪️Рабочие — увеличивают продуктивность сотрудников;
▪️Креативные — помогают в творческих задачах;
▪️Информационные — участвуют в исследованиях и анализе информации;
▪️Кодеры — помогают в разработке ПО;
▪️Обеспечение безопасности — отслеживают подозрительную активность в системе.
AI-поиск
AI расширил возможности поиска для пользователей — в том числе за счет мультимодальности. AI может работать с текстами, видео, аудио и пользовательскими промптами. Таким образом процесс поиска информации упрощается не только для пользователей, но и для самих сотрудников компании. Например, техподдержка может быстрее найти информацию, используя AI для поиска по корпоративной документации.
В Google прогнозируют, что рынок корпоративного поиска к 2031 году вырастет почти до $13 млрд.
Авторы отчета называют три основных плюса корпоративного AI-поиска:
▪️Быстрый доступ к информации;
▪️Более интуитивный процесс поиска;
▪️AI-аналитика полученной информации.
Пользовательский AI-опыт
Авторы отмечают, что пока аугментированный AI пользовательский опыт (CX) находится на раннем этапе, который пока в основном ограничен использованием чат-ботов. Будущее же за персонализированным опытом, когда пользователь даже не будет замечать, что он общался с техподдержкой сервиса для решения своей проблемы — настолько AI будет интегрирован в систему. Особенно активно AI в таком ключе будет использовать ритейл, производство и телеком, считают эксперты.
Безопасность
Вопрос использования AI особенно актуален в контексте безопасности. По прогнозам, уже в 2028 году половина компаний будут использовать AI для борьбы с дезинформацией (например, с дипфейками).
Авторы выделяют три самых популярных способа использования AI для обеспечения безопасности:
▪️Создание правил безопасности;
▪️Симуляция хакерских атак;
▪️Отслеживание случаев нарушения комплаенса.
Уже сейчас применение AI для обеспечения безопасности позволяет сэкономить компаниям больше $2 млн.
В новом отчете AI Business Trends 2025 эксперты компании рассказали основные прикладные способы использования AI бизнесом в ближайшие годы.
Мультимодальный AI
В Google считают, что следующий год станет ключевым для внедрения AI корпоративным сектором. Основным драйвером для этого будут мультимодальные возможности современных AI-моделей. Авторы доклада считают, что рынок мультимодального AI вырастет с $2,4 млрд в 2025 году до почти $100 млрд к концу 2037-го.
Главными плюсами мультимодального AI в Google считают:
▪️Возможность одновременно работать с несколькими видами контента (текст, изображения, видео), что позволяет более качественно отвечать на запросы пользователя;
▪️Расширенные возможности аналитики структурированной и неструктурированной информации, что позволяет улучшать пользовательский опыт взаимодействия с продуктом компании;
▪️Высокая удовлетворенность пользователя при использовании продукта за счет персонализированного опыта, который обеспечивает мультимодальный AI.
AI-агенты/ мультиагентные системы
Уже сегодня, отмечают авторы, использование AI-агентов для автоматизации рабочих задач повышает продуктивность сотрудника в среднем на 15%. Сейчас около 10% компаний используют агентов, но 82% планируют интегрировать их в рабочий процесс в течение трех лет.
Следующий этап — системы, которые используют сразу несколько автономных AI-агентов для решения комплексных задач. Несмотря на автономность, агенты синхронизируются друг с другом без вмешательства со стороны человека.
Google выделяет шесть основных типов агентов:
▪️Клиентские — выполняют функции техподдержки;
▪️Рабочие — увеличивают продуктивность сотрудников;
▪️Креативные — помогают в творческих задачах;
▪️Информационные — участвуют в исследованиях и анализе информации;
▪️Кодеры — помогают в разработке ПО;
▪️Обеспечение безопасности — отслеживают подозрительную активность в системе.
AI-поиск
AI расширил возможности поиска для пользователей — в том числе за счет мультимодальности. AI может работать с текстами, видео, аудио и пользовательскими промптами. Таким образом процесс поиска информации упрощается не только для пользователей, но и для самих сотрудников компании. Например, техподдержка может быстрее найти информацию, используя AI для поиска по корпоративной документации.
В Google прогнозируют, что рынок корпоративного поиска к 2031 году вырастет почти до $13 млрд.
Авторы отчета называют три основных плюса корпоративного AI-поиска:
▪️Быстрый доступ к информации;
▪️Более интуитивный процесс поиска;
▪️AI-аналитика полученной информации.
Пользовательский AI-опыт
Авторы отмечают, что пока аугментированный AI пользовательский опыт (CX) находится на раннем этапе, который пока в основном ограничен использованием чат-ботов. Будущее же за персонализированным опытом, когда пользователь даже не будет замечать, что он общался с техподдержкой сервиса для решения своей проблемы — настолько AI будет интегрирован в систему. Особенно активно AI в таком ключе будет использовать ритейл, производство и телеком, считают эксперты.
Безопасность
Вопрос использования AI особенно актуален в контексте безопасности. По прогнозам, уже в 2028 году половина компаний будут использовать AI для борьбы с дезинформацией (например, с дипфейками).
Авторы выделяют три самых популярных способа использования AI для обеспечения безопасности:
▪️Создание правил безопасности;
▪️Симуляция хакерских атак;
▪️Отслеживание случаев нарушения комплаенса.
Уже сейчас применение AI для обеспечения безопасности позволяет сэкономить компаниям больше $2 млн.
AI-модель, которая может генерировать видеоигры с открытым миром
Стартап Etched выпустил AI-модель Oasis, которая генерирует интерактивную видеоигру на основе действий пользователя с мышкой и клавиатурой. Oasis генерирует не только визуальную часть игры, но также физические свойства объектов внутри нее (пользователи могут создавать объекты и разбивать их) и ее правила.
Игры Oasis больше всего напоминают Minecraft.
Сама модель состоит из двух частей:
➡️Диффузионная модель, которая итеративным методом создает все более детальные генерации;
➡️Автокодировщик, который позволяет «сжимать» игровой мир для более быстрой работы с ним, при этом сохраняя детали игрового пространства.
Опенсорсный Oasis можно также скачать и запустить локально. Код доступен здесь, а демо доступно — здесь.
Oasis оптимизирован под работу чипов Sohu — собственной разработки Etched. Sohu в десятки раз быстрее чипов H100 от Nvidia, но при этом может работать только с моделями-трансформерами и никакими другими.
Oasis можно запустить и на H100, но в низком разрешении 360p. Sohu, уверяют разработчики, сможет работать с версией Oasis на 100 млрд параметров в разрешении 4K. В демоверсии доступна модель Oasis на 500 млн параметров.
В Etched считают, что в перспективе все чипы будут создаваться с упором на работу с конкретным типом AI-моделей.
Стартап Etched выпустил AI-модель Oasis, которая генерирует интерактивную видеоигру на основе действий пользователя с мышкой и клавиатурой. Oasis генерирует не только визуальную часть игры, но также физические свойства объектов внутри нее (пользователи могут создавать объекты и разбивать их) и ее правила.
Игры Oasis больше всего напоминают Minecraft.
Сама модель состоит из двух частей:
➡️Диффузионная модель, которая итеративным методом создает все более детальные генерации;
➡️Автокодировщик, который позволяет «сжимать» игровой мир для более быстрой работы с ним, при этом сохраняя детали игрового пространства.
Опенсорсный Oasis можно также скачать и запустить локально. Код доступен здесь, а демо доступно — здесь.
Oasis оптимизирован под работу чипов Sohu — собственной разработки Etched. Sohu в десятки раз быстрее чипов H100 от Nvidia, но при этом может работать только с моделями-трансформерами и никакими другими.
Oasis можно запустить и на H100, но в низком разрешении 360p. Sohu, уверяют разработчики, сможет работать с версией Oasis на 100 млрд параметров в разрешении 4K. В демоверсии доступна модель Oasis на 500 млн параметров.
В Etched считают, что в перспективе все чипы будут создаваться с упором на работу с конкретным типом AI-моделей.
Токенизация мешает AI-моделям решать математические задачи
Исследователи из Университета Британской Колумбии в Канаде и Йельского университета пришли к выводу, что алгоритм работы, который лежит в основе современных языковых моделей, мешает им решать даже самые простые математические задачи.
Речь идет о токенизации — способе, который позволяет LLM обрабатывать большие объемы текстовой информации. Когда языковая модель работает с текстом, она разбивает его не на слова, а на последовательность текстовых символов (это и есть токены). Это позволяет сэкономить ресурсы, так как в один токен можно «зашить» больше одного слова.
Для токенизации модели используют специальный инструмент — токенизатор. Способы токенизации существуют разные.
Исследователи выяснили, что метод токенизации, несмотря на свои плюсы, ограничивает способности работы LLM. Они протестировали модели Claude-3.5 и GPT-4o Mini.
Оказалось, что в зависимости от того, каким способом происходит токенизация информации, точность ответов языковой модели может изменяться на 80%. Если при токенизации один символ становится одним токеном, то точность LLM растет. Если в токене объединены несколько символов, то точность снижается.
Улучшить ситуацию позволяет метод Chain of Thought, когда языковая модель разбивает решение каждой задачи на несколько этапов и объясняет, как она пришла к решению.
Авторы работы не первые, кто обратил внимание на проблему токенизации. Токенизация не только мешает LLM правильно считать. Из-за токенизации модели хуже справляются с языками кроме английского и, например, могут решить, что пробел между словами это тоже слово. Кроме того, процесс токенизации часто привязан к конкретной модели, что также затрудняет их работу.
Некоторые предлагают радикальный метод полностью отказаться от токенизации. Например, Meta* представила метод под название MegaByte, который разбивает информацию на байты. Метод позволяет модели быстрее обрабатывать больший объем информации.
Также компания представила новую архитектуру LLM под названием Byte Latent Transformer (BLT). BLT вместо токенов использует патчи — фрагменты, размер которых устанавливается динамически для более эффективной обработки. Патчи позволяют модели работать с большим объемом данных, используя при этом меньший объем ресурсов системы. Еще один плюс BLT в том, что такая архитектура совместима не только с текстом, но и изображениями.
*Организация, запрещенная на территории РФ
Исследователи из Университета Британской Колумбии в Канаде и Йельского университета пришли к выводу, что алгоритм работы, который лежит в основе современных языковых моделей, мешает им решать даже самые простые математические задачи.
Речь идет о токенизации — способе, который позволяет LLM обрабатывать большие объемы текстовой информации. Когда языковая модель работает с текстом, она разбивает его не на слова, а на последовательность текстовых символов (это и есть токены). Это позволяет сэкономить ресурсы, так как в один токен можно «зашить» больше одного слова.
Для токенизации модели используют специальный инструмент — токенизатор. Способы токенизации существуют разные.
Исследователи выяснили, что метод токенизации, несмотря на свои плюсы, ограничивает способности работы LLM. Они протестировали модели Claude-3.5 и GPT-4o Mini.
Оказалось, что в зависимости от того, каким способом происходит токенизация информации, точность ответов языковой модели может изменяться на 80%. Если при токенизации один символ становится одним токеном, то точность LLM растет. Если в токене объединены несколько символов, то точность снижается.
Улучшить ситуацию позволяет метод Chain of Thought, когда языковая модель разбивает решение каждой задачи на несколько этапов и объясняет, как она пришла к решению.
Авторы работы не первые, кто обратил внимание на проблему токенизации. Токенизация не только мешает LLM правильно считать. Из-за токенизации модели хуже справляются с языками кроме английского и, например, могут решить, что пробел между словами это тоже слово. Кроме того, процесс токенизации часто привязан к конкретной модели, что также затрудняет их работу.
Некоторые предлагают радикальный метод полностью отказаться от токенизации. Например, Meta* представила метод под название MegaByte, который разбивает информацию на байты. Метод позволяет модели быстрее обрабатывать больший объем информации.
Также компания представила новую архитектуру LLM под названием Byte Latent Transformer (BLT). BLT вместо токенов использует патчи — фрагменты, размер которых устанавливается динамически для более эффективной обработки. Патчи позволяют модели работать с большим объемом данных, используя при этом меньший объем ресурсов системы. Еще один плюс BLT в том, что такая архитектура совместима не только с текстом, но и изображениями.
*Организация, запрещенная на территории РФ
Поисковик ChatGPT дает ошибочные ответы в 77% случаев
В самом конце октября OpenAI представили поисковик на базе чат-бота ChatGPT — ChatGPT Search.
Через интерфейс чат-бота можно была выбрать функцию поиска в интернете и получить (обещали разработчики) актуальную и релевантную информацию по своему запросу. OpenAI позиционируют Search как замену поисковику Google.
ChatGPT Search доступен только платным подписчикам ChatGPT.
Спустя месяц после запуска сервиса исследователи из Колумбийского университета в Нью-Йорке опубликовали работу, из которой следует что Search справляется с задачами не слишком хорошо.
В частности, исследователи решили проверить, как Search работает с контентом от издателей, которые заключили официальное партнерское соглашение с OpenAI. Партнерство предполагает, что AI-модель OpenAI может официально использовать информацию с сайтов, принадлежащих издателю, в своих ответах.
Для эксперимента авторы взяли 200 цитат из публикаций и скормили их Search, чтобы тот нашел первоисточник цитат. В случае, если эти же цитаты забить в Google или Bing, то в топе выдачи поисковиков будут исходные статьи. Часть цитат были из публикаций изданий, которые запретили использовать свой контент чат-боту.
В итоге Search в 153 случаях уверенно выдал полностью или частично неправильный ответ. В отдельных случаях (например, когда AI не мог получить доступ к контенту) поисковик полностью выдумывал ответ. Только в 7 случаях AI-поисковик допустил, что может не знать правильный ответ. Иногда поисковик давал ссылку не на первоисточник, а на ресурсы, которые без разрешения перепечатали оригинальный материал. Search также давал разные ответы, если один и тот же вопрос ему задавали несколько раз.
Search ошибался как в случае с изданиями, которые разрешили использовать свой контент, так и с теми, которые закрыли доступ.
Авторы отмечают, что ошибки, которые допускает Search, могут нанести вред не только пользователю, но и издателю, который разрешил пользоваться своим контентом.
В самом конце октября OpenAI представили поисковик на базе чат-бота ChatGPT — ChatGPT Search.
Через интерфейс чат-бота можно была выбрать функцию поиска в интернете и получить (обещали разработчики) актуальную и релевантную информацию по своему запросу. OpenAI позиционируют Search как замену поисковику Google.
ChatGPT Search доступен только платным подписчикам ChatGPT.
Спустя месяц после запуска сервиса исследователи из Колумбийского университета в Нью-Йорке опубликовали работу, из которой следует что Search справляется с задачами не слишком хорошо.
В частности, исследователи решили проверить, как Search работает с контентом от издателей, которые заключили официальное партнерское соглашение с OpenAI. Партнерство предполагает, что AI-модель OpenAI может официально использовать информацию с сайтов, принадлежащих издателю, в своих ответах.
Для эксперимента авторы взяли 200 цитат из публикаций и скормили их Search, чтобы тот нашел первоисточник цитат. В случае, если эти же цитаты забить в Google или Bing, то в топе выдачи поисковиков будут исходные статьи. Часть цитат были из публикаций изданий, которые запретили использовать свой контент чат-боту.
В итоге Search в 153 случаях уверенно выдал полностью или частично неправильный ответ. В отдельных случаях (например, когда AI не мог получить доступ к контенту) поисковик полностью выдумывал ответ. Только в 7 случаях AI-поисковик допустил, что может не знать правильный ответ. Иногда поисковик давал ссылку не на первоисточник, а на ресурсы, которые без разрешения перепечатали оригинальный материал. Search также давал разные ответы, если один и тот же вопрос ему задавали несколько раз.
Search ошибался как в случае с изданиями, которые разрешили использовать свой контент, так и с теми, которые закрыли доступ.
Авторы отмечают, что ошибки, которые допускает Search, могут нанести вред не только пользователю, но и издателю, который разрешил пользоваться своим контентом.
Meta выпустила модель, которая может сама создавать датасеты для обучения
Self-Taught Evaluator (STE) умеет создавать синтетические датасеты, которые затем будут использоваться для обучения LLM.
С помощью STE языковая модель самостоятельно собирает качественный датасет из пула информации, предложенной ей человеком. При этом сам человек в составлении датасета не участвует.
STE позволяет модели отбирать из пула наиболее релевантную и разнообразную информацию с учетом заданных целей и задач.
Когда датасет собран, LLM может использовать его для самостоятельного обучения, или же отобранную информацию можно использовать для обучения других языковых моделей.
В тестах метод STE показал себя успешно. Обученная с помощью него языковая модель показала более высокие результаты в бенчмарках, чем базовая LLM.
Важно понимать, что модель с STE действует не полностью автономно. Задачи и изначальный массив информации все равно выбирает человек.
Тем не менее STE позволяет существенно масштабировать и ускорить создание датасетов, что часто является узким горлом в процессе обучения AI-моделей. Особенно это актуально для компаний, которым нужно обучить LLM на корпоративной информации.
Разработчики утверждают, что STE позволяет эффективнее справиться с составлением датасетов, чем это получается у моделей с большим количеством параметров или в случаях, когда к обучению привлекается человек.
STE построен на основе языковой модели Llama 3-70B-Instruct.
Self-Taught Evaluator (STE) умеет создавать синтетические датасеты, которые затем будут использоваться для обучения LLM.
С помощью STE языковая модель самостоятельно собирает качественный датасет из пула информации, предложенной ей человеком. При этом сам человек в составлении датасета не участвует.
STE позволяет модели отбирать из пула наиболее релевантную и разнообразную информацию с учетом заданных целей и задач.
Когда датасет собран, LLM может использовать его для самостоятельного обучения, или же отобранную информацию можно использовать для обучения других языковых моделей.
В тестах метод STE показал себя успешно. Обученная с помощью него языковая модель показала более высокие результаты в бенчмарках, чем базовая LLM.
Важно понимать, что модель с STE действует не полностью автономно. Задачи и изначальный массив информации все равно выбирает человек.
Тем не менее STE позволяет существенно масштабировать и ускорить создание датасетов, что часто является узким горлом в процессе обучения AI-моделей. Особенно это актуально для компаний, которым нужно обучить LLM на корпоративной информации.
Разработчики утверждают, что STE позволяет эффективнее справиться с составлением датасетов, чем это получается у моделей с большим количеством параметров или в случаях, когда к обучению привлекается человек.
STE построен на основе языковой модели Llama 3-70B-Instruct.
Новая LLM от Nvidia, заточенная под логические задачи
Компания опубликовала опенсорсную модель с длинным названием Llama 3.1-Nemotron-70B-Instruct.
Как можно догадаться, это не стопроцентная разработка Nvidia, а дообученная версия языковой модели Llama 3.1. Для обучения использовался метод RLHF — то есть обучение с подкреплением на основе фидбека пользователя.
LLM заточена под выполнение сложных задач и генерацию развернутых подробных ответов. В этом ей помогает контекстное окно в 128к токенов.
Разработчики считают, что модель отлично подойдет для чат-ботов, создания подробных текстовых подсказок для генерации различного контента, решения логических и математических задач.
В бенчмарках опенсорсный Nemotron показывает результаты, которые сопоставимы с топовыми проприетарными моделями, такими как Claude 3.5, GPT-4o и Gemini 1.5.
Потестировать LLM можно здесь.
Пользователи отмечают, что модель действительно классно справляется с задачами на логику, особенно с применением техники Chain of Thought. Те, кто уже попробовал модель, также предупреждают, что Nemotron не обучен для написания программного кода, так что в этой области чудес от LLM ждать не стоит.
В конце сентября Nvidia выпустила еще одну языковую модель из семейства Nemotron — Llama-3.1-Nemotron-51B. Эта модель была сбалансирована для получения максимально точных ответов при минимальной загрузке системы. Nemotron-51B для работы достаточно одного GPU H100 от Nvidia.
Компания опубликовала опенсорсную модель с длинным названием Llama 3.1-Nemotron-70B-Instruct.
Как можно догадаться, это не стопроцентная разработка Nvidia, а дообученная версия языковой модели Llama 3.1. Для обучения использовался метод RLHF — то есть обучение с подкреплением на основе фидбека пользователя.
LLM заточена под выполнение сложных задач и генерацию развернутых подробных ответов. В этом ей помогает контекстное окно в 128к токенов.
Разработчики считают, что модель отлично подойдет для чат-ботов, создания подробных текстовых подсказок для генерации различного контента, решения логических и математических задач.
В бенчмарках опенсорсный Nemotron показывает результаты, которые сопоставимы с топовыми проприетарными моделями, такими как Claude 3.5, GPT-4o и Gemini 1.5.
Потестировать LLM можно здесь.
Пользователи отмечают, что модель действительно классно справляется с задачами на логику, особенно с применением техники Chain of Thought. Те, кто уже попробовал модель, также предупреждают, что Nemotron не обучен для написания программного кода, так что в этой области чудес от LLM ждать не стоит.
В конце сентября Nvidia выпустила еще одну языковую модель из семейства Nemotron — Llama-3.1-Nemotron-51B. Эта модель была сбалансирована для получения максимально точных ответов при минимальной загрузке системы. Nemotron-51B для работы достаточно одного GPU H100 от Nvidia.
MTS AI создал новые методы биометрической верификации речи и борьбы с дипфейками
Мы в MTS AI нашли способ борьбы с самыми сложными дипфейк-атаками на базе современных нейросетей. Для этого нам нужно было решить три ключевые задачи: обнаружить дипфейк с поддельным голосом, автоматически проверить личность клиента по голосу, а также реализовать все это как единую технологию.
Чтобы создать систему обнаружения дипфейков, мы использовали самообучающуюся нейросеть WavLM. Она выделяет неестественные колебания или шумы, типичные для искусственно сгенерированных голосов, и другие особенности звука. Систему обучали на настоящих и поддельных сгенерированных записях. Она учитывает целенаправленное изменение аудиофайлов: добавление шума и имитацию сжатия кодеками. В итоге мы подготовили модель к реальным условиям.
В основе архитектуры системы — сочетание сверхточных нейронных сетей (CNN) и трансформеров. CNN сконцентрированы на локальных закономерностях в данных: например, особенностях тембра и шумах. Трансформеры анализируют глобальный контекст, понимают, как один фрагмент аудиозаписи связан с другими и учитывают интонацию, паузы и длительность звуков, чтобы распознать естественные и неестественные изменения в речи.
Команда MTS AI объединила результаты пяти лучших моделей, в итоге система смогла правильно идентифицировать дипфейк-записи.
На втором этапе мы создали систему биометрической верификации по голосу. Для этого команда задействовала модели на основе архитектур ResNet и CAM++. Их используют в задачах компьютерного зрения и классификации звуковых событий, поэтому мы их трансформировали. Команда модифицировала модель ResNet для получения набора чисел, описывающего уникальные особенности голоса человека из звуковой спектрограммы.
Теперь она позволяла сравнивать между собой разные звукозаписи и выполнять биометрическую верификацию. Более компактную модель CAM++ мы обучили с помощью крупных наборов данных, включая базу VoxCeleb2 и записи из проекта Mozilla Common Voice.
Главной сложностью было объединить результаты первых двух этапов в единую технологию. Для этого мы разработали метод взвешивания оценок Power Weighted Score Fusion (PWSF). Он позволяет комбинировать оценки от обеих систем, увеличивая уровень уверенности каждой системы. Если обе системы сходятся во мнении, что голос подлинный, PWSF усиливает этот результат. Если мнения расходятся, система отдает предпочтение более осторожной оценке и отклоняет голос как подозрительный.
Так система «перестраховывается». Это снижает риск ошибок в пользу более консервативного подхода. Действительно, в банковских системах биометрической защиты безопаснее временно заблокировать доступ, чем открыть его мошеннику. В итоге технология достигла минимального уровня ошибок при обнаружении дипфейков — 3,41%.
Недавно разработчики MTS AI заняли второе и третье места в мире на главном международном конкурсе ASVspoof 2024, где различные решения тестируют в обнаружении дипфейков и биометрической верификации голоса.
Мы в MTS AI нашли способ борьбы с самыми сложными дипфейк-атаками на базе современных нейросетей. Для этого нам нужно было решить три ключевые задачи: обнаружить дипфейк с поддельным голосом, автоматически проверить личность клиента по голосу, а также реализовать все это как единую технологию.
Чтобы создать систему обнаружения дипфейков, мы использовали самообучающуюся нейросеть WavLM. Она выделяет неестественные колебания или шумы, типичные для искусственно сгенерированных голосов, и другие особенности звука. Систему обучали на настоящих и поддельных сгенерированных записях. Она учитывает целенаправленное изменение аудиофайлов: добавление шума и имитацию сжатия кодеками. В итоге мы подготовили модель к реальным условиям.
В основе архитектуры системы — сочетание сверхточных нейронных сетей (CNN) и трансформеров. CNN сконцентрированы на локальных закономерностях в данных: например, особенностях тембра и шумах. Трансформеры анализируют глобальный контекст, понимают, как один фрагмент аудиозаписи связан с другими и учитывают интонацию, паузы и длительность звуков, чтобы распознать естественные и неестественные изменения в речи.
Команда MTS AI объединила результаты пяти лучших моделей, в итоге система смогла правильно идентифицировать дипфейк-записи.
На втором этапе мы создали систему биометрической верификации по голосу. Для этого команда задействовала модели на основе архитектур ResNet и CAM++. Их используют в задачах компьютерного зрения и классификации звуковых событий, поэтому мы их трансформировали. Команда модифицировала модель ResNet для получения набора чисел, описывающего уникальные особенности голоса человека из звуковой спектрограммы.
Теперь она позволяла сравнивать между собой разные звукозаписи и выполнять биометрическую верификацию. Более компактную модель CAM++ мы обучили с помощью крупных наборов данных, включая базу VoxCeleb2 и записи из проекта Mozilla Common Voice.
Главной сложностью было объединить результаты первых двух этапов в единую технологию. Для этого мы разработали метод взвешивания оценок Power Weighted Score Fusion (PWSF). Он позволяет комбинировать оценки от обеих систем, увеличивая уровень уверенности каждой системы. Если обе системы сходятся во мнении, что голос подлинный, PWSF усиливает этот результат. Если мнения расходятся, система отдает предпочтение более осторожной оценке и отклоняет голос как подозрительный.
Так система «перестраховывается». Это снижает риск ошибок в пользу более консервативного подхода. Действительно, в банковских системах биометрической защиты безопаснее временно заблокировать доступ, чем открыть его мошеннику. В итоге технология достигла минимального уровня ошибок при обнаружении дипфейков — 3,41%.
Недавно разработчики MTS AI заняли второе и третье места в мире на главном международном конкурсе ASVspoof 2024, где различные решения тестируют в обнаружении дипфейков и биометрической верификации голоса.
Технологические тренды, которые определят 2025
В ежегодном отчете Capgemini обозначены 5 ключевых трендов развития современных технологий в ближайшие годы. Эксперты также спрогнозировали, что нас ждет в обозримом будущем.
Эпоха агентификации продолжит бурный рост
Ожидается, что рынок генеративных агентов вырастет с $5,1 млрд в 2024 году до $47,1 млрд к 2030 году. Разработки компаний-гигантов подтверждают эти прогнозы. Например, Microsoft недавно запустила Magentic-One — новый мультиагентный фреймворк с открытым исходным кодом, предназначенный для управления сложными, многоэтапными задачами. В ней есть агент-«оркестратор», который управляет специализированными агентами — Websurfer, FileSurfer, Coder и ComputerTerminal — для повышения производительности и эффективности в повседневных задачах, таких как анализ данных анализ данных и поиск информации.
GenAI усиливает защитные и атакующие возможности в кибербезопасности
Более 97% организаций уже столкнулись с кибератаками, связанными с использованием GenAI, включая фишинг, дипфейки и инъекцию данных. В 2025 году более 75% компаний планируют внедрить AI для анализа угроз и автоматизации защиты. Инвестиции в киберстартапы только за первый квартал 2024 года составили $2,7 млрд, а глобальные компании Cisco и Palo Alto Networks уже используют AI для предотвращения атак.
Робототехника на базе AI стала реальностью
Развитие робототехники делает ее все более универсальной. Коботы (collaborative robots) уже повышают эффективность на производственных линиях. Человекоподобные роботы используются в логистике и здравоохранении. Например, компания Electrolux увеличила производительность на 60% благодаря коботам, а Raymath — на 200% в сварке и на 600% в обслуживании станков. Рынок коботов может достигнуть $10,4 млрд к 2035 году, а глобальный рынок человекоподобных роботов будет быстро расти — CAGR в 154% с 2024 по 2027 год.
AI возрождает ядерную энергетику
Рост энергопотребления для работы AI и других энергоемких технологий стимулирует возвращение ядерной энергетики. Компактные модульные реакторы (SMR) становятся основным решением благодаря своей безопасности, низкой стоимости и быстрой установке. Microsoft, Google и Amazon подписывают контракты на поставку электроэнергии от новых ядерных установок. К 2050 году мировые мощности атомной энергетики планируется утроить, а технологии, такие как термоядерный синтез, обещают революцию в генерации энергии.
Цепочки поставок требуют быть гибкими и экологичными
Геополитическая нестабильность и изменения в потребностях клиентов стимулируют создание более гибких и устойчивых цепочек поставок. Использование AI, цифровых двойников и блокчейна позволяет компаниям повышать прозрачность, оптимизировать процессы и снижать издержки. Центр Amazon в Луизиане внедрил системы AI, которые увеличили скорость обработки заказов на 25% и уменьшили отходы. К 2025 году более 70% крупных компаний начнут использовать новейшие технологии для повышения эффективности.
GenAI будет основой бизнес-процессов к 2030
Рынок AI-агентов вырастет до $47,1 млрд. Робототехника будет развиваться в промышленности, здравоохранении и логистике. В энергетике акцент будет сделан на компактных модульных реакторах и новых формах возобновляемой энергии.
В ежегодном отчете Capgemini обозначены 5 ключевых трендов развития современных технологий в ближайшие годы. Эксперты также спрогнозировали, что нас ждет в обозримом будущем.
Эпоха агентификации продолжит бурный рост
Ожидается, что рынок генеративных агентов вырастет с $5,1 млрд в 2024 году до $47,1 млрд к 2030 году. Разработки компаний-гигантов подтверждают эти прогнозы. Например, Microsoft недавно запустила Magentic-One — новый мультиагентный фреймворк с открытым исходным кодом, предназначенный для управления сложными, многоэтапными задачами. В ней есть агент-«оркестратор», который управляет специализированными агентами — Websurfer, FileSurfer, Coder и ComputerTerminal — для повышения производительности и эффективности в повседневных задачах, таких как анализ данных анализ данных и поиск информации.
GenAI усиливает защитные и атакующие возможности в кибербезопасности
Более 97% организаций уже столкнулись с кибератаками, связанными с использованием GenAI, включая фишинг, дипфейки и инъекцию данных. В 2025 году более 75% компаний планируют внедрить AI для анализа угроз и автоматизации защиты. Инвестиции в киберстартапы только за первый квартал 2024 года составили $2,7 млрд, а глобальные компании Cisco и Palo Alto Networks уже используют AI для предотвращения атак.
Робототехника на базе AI стала реальностью
Развитие робототехники делает ее все более универсальной. Коботы (collaborative robots) уже повышают эффективность на производственных линиях. Человекоподобные роботы используются в логистике и здравоохранении. Например, компания Electrolux увеличила производительность на 60% благодаря коботам, а Raymath — на 200% в сварке и на 600% в обслуживании станков. Рынок коботов может достигнуть $10,4 млрд к 2035 году, а глобальный рынок человекоподобных роботов будет быстро расти — CAGR в 154% с 2024 по 2027 год.
AI возрождает ядерную энергетику
Рост энергопотребления для работы AI и других энергоемких технологий стимулирует возвращение ядерной энергетики. Компактные модульные реакторы (SMR) становятся основным решением благодаря своей безопасности, низкой стоимости и быстрой установке. Microsoft, Google и Amazon подписывают контракты на поставку электроэнергии от новых ядерных установок. К 2050 году мировые мощности атомной энергетики планируется утроить, а технологии, такие как термоядерный синтез, обещают революцию в генерации энергии.
Цепочки поставок требуют быть гибкими и экологичными
Геополитическая нестабильность и изменения в потребностях клиентов стимулируют создание более гибких и устойчивых цепочек поставок. Использование AI, цифровых двойников и блокчейна позволяет компаниям повышать прозрачность, оптимизировать процессы и снижать издержки. Центр Amazon в Луизиане внедрил системы AI, которые увеличили скорость обработки заказов на 25% и уменьшили отходы. К 2025 году более 70% крупных компаний начнут использовать новейшие технологии для повышения эффективности.
GenAI будет основой бизнес-процессов к 2030
Рынок AI-агентов вырастет до $47,1 млрд. Робототехника будет развиваться в промышленности, здравоохранении и логистике. В энергетике акцент будет сделан на компактных модульных реакторах и новых формах возобновляемой энергии.
Всем привет!
Планирую развивать канал, добавлять новые форматы и рубрики. Для этого мне нужно больше узнать о вас - моей аудитории. Ответьте, пожалуйста, на несколько вопросов.
Планирую развивать канал, добавлять новые форматы и рубрики. Для этого мне нужно больше узнать о вас - моей аудитории. Ответьте, пожалуйста, на несколько вопросов.
Чем вы занимаетесь?
Anonymous Poll
30%
Я — айтишник
9%
Я — топ-менеджер в технологической компании
22%
Я — сотрудник МТС
39%
Мне просто интересно читать про технологии
Всем привет!
Спасибо, что выделили время и прошли предыдущий опрос. Поделитесь, о чем вам интересно читать здесь?
Спасибо, что выделили время и прошли предыдущий опрос. Поделитесь, о чем вам интересно читать здесь?
О чем интересно читать?
Anonymous Poll
24%
Новости технологий, AI, гаджетов
18%
Обзор свежих сервисов, AI-моделей
11%
Тестирование/сравнение AI-инструментов
12%
Обзоры научных исследований на технологические темы
14%
Посты о «внутренней кухне» МТС
9%
Посты о вызовах и успехах топ-менеджера IT-компании
12%
Разборы технологических трендов