PASHAAIAIAI Telegram 171
MTS AI создал новые методы биометрической верификации речи и борьбы с дипфейками

Мы в MTS AI нашли способ борьбы с самыми сложными дипфейк-атаками на базе современных нейросетей. Для этого нам нужно было решить три ключевые задачи: обнаружить дипфейк с поддельным голосом, автоматически проверить личность клиента по голосу, а также реализовать все это как единую технологию.

Чтобы создать систему обнаружения дипфейков, мы использовали самообучающуюся нейросеть WavLM. Она выделяет неестественные колебания или шумы, типичные для искусственно сгенерированных голосов, и другие особенности звука. Систему обучали на настоящих и поддельных сгенерированных записях. Она учитывает целенаправленное изменение аудиофайлов: добавление шума и имитацию сжатия кодеками. В итоге мы подготовили модель к реальным условиям.

В основе архитектуры системы — сочетание сверхточных нейронных сетей (CNN) и трансформеров. CNN сконцентрированы на локальных закономерностях в данных: например, особенностях тембра и шумах. Трансформеры анализируют глобальный контекст, понимают, как один фрагмент аудиозаписи связан с другими и учитывают интонацию, паузы и длительность звуков, чтобы распознать естественные и неестественные изменения в речи.

Команда MTS AI объединила результаты пяти лучших моделей, в итоге система смогла правильно идентифицировать дипфейк-записи.
На втором этапе мы создали систему биометрической верификации по голосу. Для этого команда задействовала модели на основе архитектур ResNet и CAM++. Их используют в задачах компьютерного зрения и классификации звуковых событий, поэтому мы их трансформировали. Команда модифицировала модель ResNet для получения набора чисел, описывающего уникальные особенности голоса человека из звуковой спектрограммы.

Теперь она позволяла сравнивать между собой разные звукозаписи и выполнять биометрическую верификацию. Более компактную модель CAM++ мы обучили с помощью крупных наборов данных, включая базу VoxCeleb2 и записи из проекта Mozilla Common Voice.

Главной сложностью было объединить результаты первых двух этапов в единую технологию. Для этого мы разработали метод взвешивания оценок Power Weighted Score Fusion (PWSF). Он позволяет комбинировать оценки от обеих систем, увеличивая уровень уверенности каждой системы. Если обе системы сходятся во мнении, что голос подлинный, PWSF усиливает этот результат. Если мнения расходятся, система отдает предпочтение более осторожной оценке и отклоняет голос как подозрительный.

Так система «перестраховывается». Это снижает риск ошибок в пользу более консервативного подхода. Действительно, в банковских системах биометрической защиты безопаснее временно заблокировать доступ, чем открыть его мошеннику. В итоге технология достигла минимального уровня ошибок при обнаружении дипфейков — 3,41%.

Недавно разработчики MTS AI заняли второе и третье места в мире на главном международном конкурсе ASVspoof 2024, где различные решения тестируют в обнаружении дипфейков и биометрической верификации голоса.



tgoop.com/pashaaiaiai/171
Create:
Last Update:

MTS AI создал новые методы биометрической верификации речи и борьбы с дипфейками

Мы в MTS AI нашли способ борьбы с самыми сложными дипфейк-атаками на базе современных нейросетей. Для этого нам нужно было решить три ключевые задачи: обнаружить дипфейк с поддельным голосом, автоматически проверить личность клиента по голосу, а также реализовать все это как единую технологию.

Чтобы создать систему обнаружения дипфейков, мы использовали самообучающуюся нейросеть WavLM. Она выделяет неестественные колебания или шумы, типичные для искусственно сгенерированных голосов, и другие особенности звука. Систему обучали на настоящих и поддельных сгенерированных записях. Она учитывает целенаправленное изменение аудиофайлов: добавление шума и имитацию сжатия кодеками. В итоге мы подготовили модель к реальным условиям.

В основе архитектуры системы — сочетание сверхточных нейронных сетей (CNN) и трансформеров. CNN сконцентрированы на локальных закономерностях в данных: например, особенностях тембра и шумах. Трансформеры анализируют глобальный контекст, понимают, как один фрагмент аудиозаписи связан с другими и учитывают интонацию, паузы и длительность звуков, чтобы распознать естественные и неестественные изменения в речи.

Команда MTS AI объединила результаты пяти лучших моделей, в итоге система смогла правильно идентифицировать дипфейк-записи.
На втором этапе мы создали систему биометрической верификации по голосу. Для этого команда задействовала модели на основе архитектур ResNet и CAM++. Их используют в задачах компьютерного зрения и классификации звуковых событий, поэтому мы их трансформировали. Команда модифицировала модель ResNet для получения набора чисел, описывающего уникальные особенности голоса человека из звуковой спектрограммы.

Теперь она позволяла сравнивать между собой разные звукозаписи и выполнять биометрическую верификацию. Более компактную модель CAM++ мы обучили с помощью крупных наборов данных, включая базу VoxCeleb2 и записи из проекта Mozilla Common Voice.

Главной сложностью было объединить результаты первых двух этапов в единую технологию. Для этого мы разработали метод взвешивания оценок Power Weighted Score Fusion (PWSF). Он позволяет комбинировать оценки от обеих систем, увеличивая уровень уверенности каждой системы. Если обе системы сходятся во мнении, что голос подлинный, PWSF усиливает этот результат. Если мнения расходятся, система отдает предпочтение более осторожной оценке и отклоняет голос как подозрительный.

Так система «перестраховывается». Это снижает риск ошибок в пользу более консервативного подхода. Действительно, в банковских системах биометрической защиты безопаснее временно заблокировать доступ, чем открыть его мошеннику. В итоге технология достигла минимального уровня ошибок при обнаружении дипфейков — 3,41%.

Недавно разработчики MTS AI заняли второе и третье места в мире на главном международном конкурсе ASVspoof 2024, где различные решения тестируют в обнаружении дипфейков и биометрической верификации голоса.

BY Паша AI AI AI



❌Photos not found?❌Click here to update cache.


Share with your friend now:
tgoop.com/pashaaiaiai/171

View MORE
Open in Telegram


Telegram News

Date: |

Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. Telegram users themselves will be able to flag and report potentially false content. As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. How to Create a Private or Public Channel on Telegram? The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information.
from us


Telegram Паша AI AI AI
FROM American