tgoop.com/pashaaiaiai/171
Last Update:
MTS AI создал новые методы биометрической верификации речи и борьбы с дипфейками
Мы в MTS AI нашли способ борьбы с самыми сложными дипфейк-атаками на базе современных нейросетей. Для этого нам нужно было решить три ключевые задачи: обнаружить дипфейк с поддельным голосом, автоматически проверить личность клиента по голосу, а также реализовать все это как единую технологию.
Чтобы создать систему обнаружения дипфейков, мы использовали самообучающуюся нейросеть WavLM. Она выделяет неестественные колебания или шумы, типичные для искусственно сгенерированных голосов, и другие особенности звука. Систему обучали на настоящих и поддельных сгенерированных записях. Она учитывает целенаправленное изменение аудиофайлов: добавление шума и имитацию сжатия кодеками. В итоге мы подготовили модель к реальным условиям.
В основе архитектуры системы — сочетание сверхточных нейронных сетей (CNN) и трансформеров. CNN сконцентрированы на локальных закономерностях в данных: например, особенностях тембра и шумах. Трансформеры анализируют глобальный контекст, понимают, как один фрагмент аудиозаписи связан с другими и учитывают интонацию, паузы и длительность звуков, чтобы распознать естественные и неестественные изменения в речи.
Команда MTS AI объединила результаты пяти лучших моделей, в итоге система смогла правильно идентифицировать дипфейк-записи.
На втором этапе мы создали систему биометрической верификации по голосу. Для этого команда задействовала модели на основе архитектур ResNet и CAM++. Их используют в задачах компьютерного зрения и классификации звуковых событий, поэтому мы их трансформировали. Команда модифицировала модель ResNet для получения набора чисел, описывающего уникальные особенности голоса человека из звуковой спектрограммы.
Теперь она позволяла сравнивать между собой разные звукозаписи и выполнять биометрическую верификацию. Более компактную модель CAM++ мы обучили с помощью крупных наборов данных, включая базу VoxCeleb2 и записи из проекта Mozilla Common Voice.
Главной сложностью было объединить результаты первых двух этапов в единую технологию. Для этого мы разработали метод взвешивания оценок Power Weighted Score Fusion (PWSF). Он позволяет комбинировать оценки от обеих систем, увеличивая уровень уверенности каждой системы. Если обе системы сходятся во мнении, что голос подлинный, PWSF усиливает этот результат. Если мнения расходятся, система отдает предпочтение более осторожной оценке и отклоняет голос как подозрительный.
Так система «перестраховывается». Это снижает риск ошибок в пользу более консервативного подхода. Действительно, в банковских системах биометрической защиты безопаснее временно заблокировать доступ, чем открыть его мошеннику. В итоге технология достигла минимального уровня ошибок при обнаружении дипфейков — 3,41%.
Недавно разработчики MTS AI заняли второе и третье места в мире на главном международном конкурсе ASVspoof 2024, где различные решения тестируют в обнаружении дипфейков и биометрической верификации голоса.
BY Паша AI AI AI

❌Photos not found?❌Click here to update cache.
Share with your friend now:
tgoop.com/pashaaiaiai/171