×

Вы используете устаревший браузер Internet Explorer. Некоторые функции сайта им не поддерживаются.

Рекомендуем установить один из следующих браузеров: Firefox, Opera или Chrome.

Контактная информация

+7-863-218-40-00 доб.200-80
ivdon3@bk.ru

Применение сверточных нейронных сетей и алгоритмов глубокого обучения для прогнозирования и идентификации голосовых дипфейков

Аннотация

Пономарёв К.Г., Верещагина Е.А.

Дата поступления статьи: 13.12.2024

Аннотация: Целью данной статьи является создание модели сверточной нейронной сети идентификации и прогнозирования аудио-дипфейков путем классификации голосового контента с применением алгоритмов глубокого машинного обучения, библиотек языка программирования «python». Наборы данных аудиоконтента являются базовыми для процесса обучения нейронной сети и представлены мел-спектрограммами. Обработка графических изображений аудиосигнала в формате тепловой карты формируют базу знаний сверточной нейронной сети. Результаты визуализации мел-спектрограмм в соотношении величины измерения частоты звука и мела определяют ключевые характеристики аудиосигнала и обеспечивают процедуру сравнения между реальным голосом и искусственной речью. Современные синтезаторы речи используют комплексную подборку и ведут формирование синтетической речи на основании записи голоса человека и языковой модели. Отметим значимость мел-спектрограмм, в том числе, для моделей синтезации речи, где данный вид спектрограмм используется для записи тембра голоса и кодировки оригинальной речи говорящего. Сверточные нейронные сети позволяют автоматизировать обработку мел-спектрограмм и выполнить классификацию голосового контента: оригинальный или фейковый. Проведенные эксперименты на тестовых голосовых наборах доказали успешность обучения и применения сверточных нейронных сетей, использующих изображения мел-кепстральных коэффициентов MFCC, для классификации и исследования аудио контента, и применения данного вида нейронных сетей в области информационной безопасности для выявления аудио дипфейков.

Ключевые слова: нейронные сети, выявление голосовых дипфейков, информационная безопасность, модели синтезирования речи, глубокое машинное обучение, категориальная кросс-энтропия, функция потерь, алгоритмы выявления голосовых дипфейков, сверточные нейронные сети

2.3.5 - Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей

2.3.6 - Методы и системы защиты информации, информационная безопасность

.