НАУКОЕМКИЕ ТЕХНОЛОГИИ В КОСМИЧЕСКИХ ИССЛЕДОВАНИЯХ ЗЕМЛИ, Т. 15. № 4-2023
ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ
doi: 10.36724/2409-5419-2023-15-4-60-67
ПРОГРАММНОЕ СРЕДСТВО, ОПРЕДЕЛЯЮЩЕЕ ФЕИКОВЫИ ВИДЕОКОНТЕНТ С ПОМОЩЬЮ ТЕХНОЛОГИИ
DEEPFAKE АЛГОРИТМА GAN
ДЖУРОВ
Александр Андреевич1
ЧЕРКЕСОВА
Лариса Владимировна2
РЕВЯКИНА
Елена Александровна3
Сведения об авторах:
"'аспирант профиля "Информационные системы и процессы", кафедра "Кибербезопасность информационных систем", Донской Государственный Технический Университет (ДГТУ), г. Ростов-на-Дону, Россия [email protected]
2доктор физико-математических наук, профессор кафедры "Кибербезопасность информационных систем", факультет "Информатика и Вычислительная техника", акад. Российской Академии Естествознания, чл.-корр. Международной Академии Наук Прикладной Радиоэлектроники, чл.-корр. Российской Академии Изучения Проблем Национальной Безопасности, Донской Государственный Технический Университет (ДГТУ), г. Ростов-на-Дону, Россия, [email protected]
3 доцент, кандидат технических наук кафедры "Кибербезопасность информационных систем", факультет "Информатика и Вычислительная техника", Донской Государственный Технический Университет (ДГТУ), г. Ростов-на-Дону, Россия, [email protected]
АННОТАЦИЯ
Введение: в современном мире одним из основных и актуальных проблем является ложный контент: новости, видео, фото и тд. На раннем этапе развития технологии Deepfake, она использовалась пользователями-любителями для генерации мультимедийного контента путем сопоставления человеческих выражений лиц и фраз, "хозяевами" которых, как правило являлись узнаваемые личности, для создания фейковых СМИ, выглядящих подлинными. Но ситуация меняется, и технология Deepfake начинает использоваться не для компрометации, а для агитации и привлечения политических сторонников. Цель исследования: Программная реализация алгоритма распознавания видеоконтента, синтезированного c помощью технологии Deepfake алгоритма GAN, с приемлемой точностью. В работе была предложена программная реализация, которая анализирует видео и выводит решение о подлинности данного. Представлены основные архитектуры алгоритма GAN, а возможности и угрозы применения технологии deepfake. Проведен анализ особенностей моделей Xception и ResNeXt, обученных с помощью нейронных сетей. Методы: Для работы системы необходимо осуществить выбор подходящих нейронных сетей на основе результатов производительности, которыми могут быть ResNeXt, XceptionNet или любая другая нейронная сеть. В рамках данной работы будут рассмотрены и использованы в программной реализации именно ResNeXt и XceptionNet, а также BlazeFace является предварительно обученной моделью распознавания человеческих лиц, используется для распознавания лиц на извлеченных изображениях. Результаты: На вход функции подается путь к видео (в файловой системе). Образец проходит покадровую проверку на наличие лица в каждом отдельном фрейме, если распознание прошло успешно, данные добавляются в список. По желанию можно оставить фиксированное количество семплов с наилучшим качеством среди представленных.
КЛЮЧЕВЫЕ СЛОВА: Deepfake, GAN, нейронная сеть, информационная безопасность, дискриминатор.
Для цитирования: Джуров А.А., Черкесова Л.В., Ревякина Е.А. Программное средство, определяющее фейковый видеоконтент с помощью технологии deepfake алгоритма GAN // Наукоемкие технологии в космических исследованиях Земли. 2023. Т. 15. № 4. С. 60-67. doi: 10.36724/2409-5419-2023-15-4-60-67
Vol. 15. No. 4-2023 H&ES RESEARCH
INFORMATICS, COMPUTER ENGINEERING AND CONTROL
Введение
Технология Deepfake [1] - это методика компьютерного синтеза изображения, основанная на искусственном интеллекте, которая используется для соединения и наложения существующих изображений и видео на исходные изображения или видеоролики. Искусственный интеллект использует синтез изображения человека - объединяет несколько картинок, на которых человек запечатлен с разных ракурсов и с разным выражением лица, и делает из них видео [2].
Deepfake представляет собой данные, полученные с помощью синтеза, в содержании которых личность и его лицо из реального видеоряда заменяется на другую личность. Как правило, результаты имеют формат аудиозаписи, фото или видео (на данный момент).
С течением некоторого времени ходовые генеративные модели начали показывать многообещающие результаты в создании реалистичных изображений. Результаты разработки Гудфеллоу показали большие успехи также и в области компьютерного зрения (КЗ). В последнее время он начал показывать перспективные результаты как в генерации высококачественного аудио, так и видеоконтента [3].
Еще одна угроза, которая может усилиться при использовании дипфейков - это дезинформация в политике. Дипфейки могут быть быстро созданы и легко распространены среди широкой аудитории.
Обладая этим специфическим преимуществом, дипфейк может быть сознательно или неосознанно использован для дезинформации общественности в политических целях. Например, использование дипфейкового видео итальянским сатирическим телешоу против официального премьер-министра Италии Маттео Ренци. На видео, опубликованном в социальных сетях, изображено, как он оскорбляет коллег-политиков. Когда видео распространилось в сети, многие люди начали верить, что видео было подлинным, что вызвало возмущение общественности [4].
Алгоритм GAM
В алгоритме GAN, популярность которого возрастает, используются искусственные нейронные сети (ИНС). В терминологии сферы ИИ они именуются как синтезатор (генератор) и дискриминатор (детектор) [5].
Генерирующий алгоритм, на вход которому поступают случайные данные, синтезирует уникальный контент. Другая ИНС, являющаяся дискриминатором, проверяет контент, чтобы убедиться, что они соответствует исходникам. Данная конкуренция двух ИНС, по сути, и составляет основной принцип работы GAN, ИНС-синтезатор на выходе преподносит реалистичные данные, в том числе с лицами известных людей. Рассматривая это через призму математических вычислений, нейросети, синтезирующие картинки (статика) и видео (динамика) не имеют различий, при том, что они могут использоваться для разных вещей.
В процессе создания фейкового видеоряда генерируется множество последовательных изображений, это обусловлено тем, что есть необходимость придавать движениям людей плавность, чтобы избегать резкого движения частей тела от
кадра к кадру. Эта самая плавность достигается за счёт различный модификация алгоритма GAN, которые помимо всего, учитывают то, что было на предыдущих итерациях [6].
Чтобы улучшить ЗБ-изображение объекта на видео, в нейронную сеть необходимо загрузить фотографии объекта, сделанные с разных ракурсов. Если вы будете одинаково фотографировать людей с бородой и без бороды, вы не получите точных результатов. Поэтому не стоит бояться, что злоумышленники будут брать фотографии из социальных сетей и создавать дипфейки на основе ваших изображений [7].
Для того чтобы создать качественное искусственное изображение на основе фотографий, придется сделать несколько снимков, снятых с разных ракурсов, вручную создать 3D-mo-дель, синтезировать множество отдельных изображений этой ЗБ-модели и загрузить их в нейросеть [8].
Этап 1 - происходит определение черт лица в картинках (кадрах), имеющихся из искомого видео. Затем, для прочего упрощения сложных вычислений, происходит отбрасывание некорректных (неудачных) кадров.
Этап 2 - происходит процесс определения контуров человеческого лица в картинках, полученных из второго видеоряда. Главным отличием является то, что в данной ситуации необходимо извлечь все лица в каждом отдельном образце, даже если лицо будет нечетким или мутным.
Этап 3 - обучение ИНС на полученных датасетах с изображениями и видеорядами. Для тренировки необходимо выбрать одну из моделей обучения, подобрать архитектуру. Тренировка в сою очередь является базовой циклической процедурой, выполняемой ИНС относительно алгоритма GAN. От качества данных для обучения зависит и качество работы ИНС.
По результатам обучения на 4 этапе производится покадровое наложение сгенерированных лиц на изображения, полученные из исходного материала. Возможно использование нескольких режимов наложения.
Этап 5 - конечная стадия, процесс наложения кадров в видео с ровно той же частотой фреймов, звуковым сопровождением, что в исходнике [9].
Каждая стадия работы процесса требует различных временных ресурсов как от человека и от ЭВМ. Время работы программного средства, покадрово извлекающего изображения из видео, может составить несколько минут, однако для проверки результатов человеку могут потребоваться часы.
Вот некоторые из самых популярных направлений GAN, которые активнее всего рассматриваются научным сообществом: конвертация исходной картинки ме^ду состояниями (CycleGAN), создание изображения на основе текстового описания (преобразование текста в изображение), напечатанного или даже написанного от руки человека, а после распознанное ИИ, создавание изображения с очень высоким разрешением (развитие классического алгоритмадо идеала).
Система состоит из двух нейросетей - генератора и дискриминатора (детектора), которые обучаются по методу backpropagation (метод обратного распространения ошибки). Суть метода строится на том, что распространение сигналов об неточности в значениях искомых входных и выходных точек (input-output), в направлении, негативном прямому распространения в стандарте [10].
НАУКОЕМКИЕ ТЕХНОЛОГИИ В КОСМИЧЕСКИХ ИССЛЕДОВАНИЯХ ЗЕМЛИ, Т. 15. № 4-2023
ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ
На рисунке 1 представлена схема работы алгоритма GAN.
РЕАЛЬНЫЕ ДАННЫЕ
ГИСКУСТВЕННЫЕ j ДАННЫЕ А
ГЕНЕРАТОР
О
ДЕТЕКТОР ВВИ
К ЦИКЛ ОБРАТНОЙ связи!
Рис. 1. Схема работы алгоритма GAN
Генератор создает из множества случайных чисел (случайного шума из заранее выбранного распределения) картинку, причем изображение должно быть максимально реалистичным. Синтез происходит на основе имеющегося набора данных. Далее данные передаются детектору.
В дискриминатор (детектор) попадает образец из генератора, а также искомое изображение. Представляет собой двоичный классификатор, который пытается с наибольшей точностью определить, является ли входная выборка реальной (вывод скалярного значения 1) или ложной (вывод скалярного значения 0). Причем в генератор поступает информация о том, по какой причине дискриминатор определил текущую выборку как синтезированный контент.
Дискриминатор хочет выполнять свою работу максимально качественно. Когда поддельный образец (созданный генератором) передается дискриминатору и производятся соответствующие вычисления, результаты всегда округляются не в пользу генератора, но последний хочет сгенерировать образцы таким образом, чтобы дискриминатор допустил ошибку, назвав его подлинным.
В конце каждой итерации детектор получает информацию от специального блока, правильно ли он выполнил свою работу или нет. Данный блок называется блоком потерь или функцией Loss.
Основные методы и средства работы ПО
При разработке программного средства используются следующие модули Python:
- openCV - библиотека компьютерного зрения, которая предназначена для анализа, классификации и обработки изображений [11];
- NumPy - это открытая бесплатная Python-библиотека для работы с многомерными массивами [12];
- Pandas - высокоуровневая Python-библиотека для ана-лизаданных [13];
- PyTorch - современная библиотека глубокого обучения [14];
- Deepfakeutils - библиотека, включающая в себя модели обучения, а также инструменты, необходимые для создания и детекции Deepfake-KOHTeHTa.
В разработанном программного обеспечения использованы в реализации именно ResNeXt [15] и XceptionNet [16]. Архитектура Xception (рис. 2) основана на теории, что обработка двух типов информации непосредственно в последовательности не приводит к снижению качества сети, и разлагает традиционную свертку на кросс-канальную (которая имеет дело только с межканальными корреляциями) и пространственную (которая имеет дело только с пространственными корреляциями внутри каждого канала). Получившаяся на рисунке конструкция и составляет полный модуль Inception [17]. Архитектура Inception, предложенная группой разработчиков в2015 году, не выбирает размер ядра, а использует несколько массивов одновременно, которые восстанавливаются в одно и то же время, и использует слияние для вывода каналов.
Input
Рис. 2. Схема блока Xception
Вместо обычного алгоритма блока нейронной сети выполняется последовательно два шага. 1 Свернём имеющийся тензор размером 1x1 свёрткой, подобно тому, как это выполнялось в блоке Inception, получив новый тензор. Эта операция называется pointwise convolution.
2 Свернём каждый канал по отдельности сверткой с параметрами 3 х з (в этом случае размерность не изменится, так как мы сворачиваем не все каналы вместе, как в обычном сверточном слое). Эта операция называется depthwise spatial convolution.
Модели нейронных сетей обучались с использованием выбранного алгоритма нейронной сети на сервисе Google Cloud Platform, используемом разработчиками в сфере искусственного интеллекта и машинного обучения.
Сверточный слой в данной архитектуре обрабатывает внутриканальную и межканальную информацию последовательно, но в рамках одного процесса. Это позволяет существенно снижать нагрузку, так как количество весов в рамках одного вычисления будет снижено. На рисунке 3 изображена схема работы блока ResNeXt.
Данный метод основывается на том, что мощность (размер серии преобразований) - это конкретное измеримое значение (не константа), которое имеет центральное значение наряду с измерениями ширины и глубины.
Vol. 15. No. 4-2023 H&ES RESEARCH
INFORMATICS, COMPUTER ENGINEERING AND CONTROL
4. Вычисление среднего значения точности предугадывания, находится среднее арифметическое коэффициентов отклонений.
5. Если среднего значения точности предугадывания больше порогового значения (задается вручную), то выводом является заключение о том, что видео является фейковым. Иначе - выводом является заключение о его реальности.
Данные шаги является действенным способом по определению фейкового видеоконтента, синтезированного с помощью технологии Deepfake алгоритма GAN, работающим с приемлемой точностью. Описанный алгоритм так же представлен в качестве блок-схемы на рисунке 5.
Рис. 3. Схема блока ЯеэКеХ!
Эксперименты показывают, что повышение производительности является более эффективным способом повышения точности, чем углубление или расширение, особенно когда глубина и ширина начинают давать существующим моделям меньшие результаты при анализе функции потерь.
Простейшие нейроны в искусственных нейронных сетях выполняют внутреннее произведение (взвешенную сумму), которое представляет собой элементарное преобразование, выполняемое полносвязными и сверточными слоями [18].
Соответственно, чем больше вес внутри отдельно взятого слоя, тем больше вероятность, что характерное его признаки будут доминирующими при обучении и при дальнейшем распределении весов. Данная серия вычислений называется •шх1. Эта операция отображена на рисунке 4.
Рис. 4. Серия вычислений
Схема работы разработанного ПО
Основной алгоритм проверки видео на подделку состоит из следующих обязательных шагов.
1. Загрузка пред обученных моделей Ре5№Х1 и Хсерйоп, делается это с помощью модуля gdown, одного из базовых библиотек по скачиванию файлов из Интернета.
2. Переход в модуль получения результатов предугадывания относительно модели Рев^Х! Выводом является величина отклонения в предугадывании.
3. Переход в модуль получения результатов предугадывания относительно модели Хсерйоп. Выводом является величина отклонения в предугадывании.
Рис. 5. Блок-схема работы основного алгоритма программы
Также в данной программе модуль получения результатов предугадывания отдельной модели. Алгоритм состоит из следующих шагов.
1. Извлечение кадров с лицами из искомого видеоряда.
2. Для каждого кадра происходит его форматирование для конкретной модели.
3. Нормализация данных каждого кадра. Подача кадров на анализ. Получение результатов анализа.
4. Вывод результата анализа (в консоль или в качестве видеоряда).
Алгоритм представлен в качестве блок-схемы на рисунке 6.
Помимо этого, программная реализация включает в себя модуль анализа данных. Его работа состоит из нескольких этапов.
1. Преобразование данных каждого кадра в тензор.
2. Если модель Хсерйоп, то анализ происходит относительно этой модели, иначе - относительно Ре5№Х1
3. Отключение градиентного спуска.
4. Выгрузка модели. Запуск процесса предугадывания.
5. Нормализация данных с помощью сигмоиды.
6. Вывод среднего значения всех элементов массива.
НАУКОЕМКИЕ ТЕХНОЛОГИИ В КОСМИЧЕСКИХ ИССЛЕДОВАНИЯХ ЗЕМЛИ, Т. 15. № 4-2023
ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ
Рис. 6. Блок-схема алгоритма получения результата предугадывания
На рисунке 7 представлена блок-схема работы данного модуля.
Начале
Преобразовать данные в тензор
Выгрузка модели ResNeXt
Выгрузка модели Xception
Отключить градиентный
спуск
Выгрузка модели Запуск предугадывания
Нормализация данных с помощью сигмоиды
Принцип работы программного средства
Программа принимает на вход строку, которая является путем к видео в файловой системе, проверяет корректность введённых данных, а именно отсутствие повторяющихся функций, отсутствие взаимоисключающих аргументов и отсутствие неверных опций.
Затем программа начинает свою работу на любом незагруженном логическом ядре, в противном случае будет выведено сообщение о возможном снижении производительности процесса тестирования. Далее проверяется возможность создания выходных файлов и чтение тестовых данных. Сбои во время этих действий маловероятны, однако может произойти ситуация, когда необходимых файлов нет. Программа не имеет графического интерфейса, поэтому запуск осуществляется через консоль. На рисунке 8 представлен пример запуска.
Если всё отработало удачно, тогда запускается тестируемая программа для всех тестовых данных, чтобы убедиться, что она работает должным образом. Это делается только для начальных входных данных и только один раз.
К F:\Progr3*> & с:
roooe/AppOata/Lociil/PrograRS/Pyt
Choose utat you want: j - Get text result about one video Z - Get text result about few video 3 - Get video result about one video lode: 1
ко» to "Deeptectorl Start worlcing!
Choose video to analyze:
1 - ex*plesVabbalbisk.np4
2 - examples\capitain_lore.ep4
3 - exaep]es\donald_thruBp.spa л - exa*ples\krylova.np4
5 - exappl es\ne_at_zoo. mp4
6 - ex«ples\jnorgan_f ге«пап
7 - ехавр 1 es\qu№n_eli zabe th. ap4 a - exaeples\robert_iicuney,epi
9 - exaeples\vladi»lr_putin.ep4
10 - examples\vladi«ir_zeJensldy. np4 Enter the тнЬег: 1
Load Xception pre-trained eodeL-. Done!
Load ResNext pre-trained model... Done!
Face samples: Ы
Jel prediction:
e,iiei47267seee323s
Face samples: 64
L prediction:
0.67376221567392349
Comparing prediction and threshold: @.68358665887823768 < 0.3
xaaples\abbalbislt,mp4 - REAL]
/Вывод среднего значения все* элементов
массива /
^ Конец ^
Рис. 7. Блок-схема алгоритма анализа данных
Рис. 8. Работа программы в первом режиме
Разберем аргументы. В данном случае основными входными параметрами являются пути к видео, которые могут быть представлены как строка, объект Path библиотеки pathlib или объект Windows Path библиотеки os. Для работы программы необходимо ввести номер режима, первый режим представляет собой вывод заключения о поддельности видео
Vol. 15. No. 4-2023 H&ES RESEARCH
INFORMATICS, COMPUTER ENGINEERING AND CONTROL
в виде текстовой строки, второй режим выводит строку с заключением о фейковости произвольного количества образцов, при работе третьего режима пользователь получает видео-заключение с вердиктом программы.
На рисунке 9 представлен пример работы второго режима программы.
Mode: 2
Welcome to "Deeptector"! Start working!
Choose videos you want to analyze:
1 - examples Yabbalbisk.mp4
2 - examples\capitain_lore.mp4
3 - examples\donald_thrump. mp4
4 - examples\krylova.mp4
5 - examples\me_at_zoo.mp4
6 - examples\morgan_Freeman.rnp4
7 - examples\queen_elizabeth.mp4
8 - examples\robert_downey.nip4
9 - examples\vladimir_putin.inp4
19 - exapples\vladijnir_zelenskiy.mp4 Choose number (press q to exit): 1 Choose number (press q to exit): 3 Choose number (press q to exit): 7 Choose number (press q to exit): q
Face samples: 64
Model prediction:
0♦3829379681726074
Face samples: 64
Model prediction:
0.4184581935405731
Face samples: 64
Model prediction:
0,7207198143005371
[0,3829379081726074, 0.4184581935405731, 0.7207198143005371]
Comparing prediction (ResNeXt) and threshold: 0.3829379081726074 >0.3
Comparing prediction (ResNeXt) and threshold: 0.4184581935405731 >0.3
Comparing prediction (ResNeXt) and threshold: 0.7207198143005371 >0.3
abbalbisk.mp4 - FAKE! donald_thrump.Hip4 - FAKE! queenelizabeth.mp4 - FAKE!
Good Bye!
Рис. 9. Работа программы во втором режиме
Видео, которые были проанализированы детектором являются дипфейками и оригинальными видео разного уровня качества, как самого видео, так и степени точности подделывания. Из результатов запуска видно, что детектор ошибся в одном случае из трех (рис. 10).
В среднем проверка одного видео занимает от семи до тридцати секунд в зависимости от длительности контента, вся тестовая сессия длиться в среднем девяносто секунд.
PS F:\Progri^> А С:г««/«f»Oet•/Lot* 1 /Frc>fr»/Pyi hon/ДОнпП/ДОт. •» f ;/Ргч«г»1*/0««:1иг.ру
Choow >Лг* you «int: > Get tert result Awt on* video
2 - Get twr rowlt *afl vidio
3 Oat video t-ftult «taut on» video
J
MPlrnw ID -DHtrtrctcr'! ÄWt wnrtii* choo\r video to nilfir:
3 fK»p]ri\dcrjId thnap.ap
7 - cJIiJÖrtll.«
П - jdMiey .»«>
4 - eiup(i]«\.vl*ll*lr pUtln,*. 1fr - «afileVvlJdütlr^ztlml
[rtfr Uv «Star; *
Input file:
»»гigilt: Ш tcLdtfi: JfW
LMd XiFptlW pT-trdiWd Hdil,..
Demi
LHt ili*m in inlwl «cdtl,.. Oonei
M
pmUrtJcm:
•.«Оаввявш
F*»
A4
KxJel prcdlctiai:
Coupjrinj pmlitticri <№ Ihrühoül: Й.ШМвШМЙЭДеД < IM
- «ШЛ_
Рис. 10. Демонстрация работы программы в третьем режиме
Третий режим работает идентично первому, основное отличие заключается в том, что в конце выводится результирующее видео. В данном режиме вводиться дополнительный аргумент, который представляет собой имя файла-результата. Пример работы программы приведен на рисунке.
Программное средство принимает на вход тестовые данные, обрабатывает их, выводит итоги тестирования и генерировать файлы-результаты с вердиктом о синтезированности искомого видеоряда.
Заключение
Технологии глубокого подражания быстро развиваются. Точность получаемых данных растет. Алгоритмы обнаружения мошенничества совершенствуются. Предполагается, что в будущем многие компании будут предлагать услуги по борьбе с данной угрозой [19].
В настоящее время двумя факторами, препятствующими широкому распространению дипфейков, являются низкий уровень совершенства алгоритмов и высокая стоимость конечного продукта. Однако с ростом индустрии развлечений эти два показателя будут улучшаться по мере выхода deepfake на массовый рынок [20].
Было реализовано программное средство для проверки видео на предмет его синтезированности с помощью технологии Deepfake алгоритма генеративно-состязательных сетей (GAN) на языке Python. Хранение значений кадров с лицами и соответствующих им имен файлов происходит в оперативной памяти. Проведено тестирование программного средства для различных файлов, включая обработку исключительных ситуаций.
НАУКОЕМКИЕ ТЕХНОЛОГИИ В КОСМИЧЕСКИХ ИССЛЕДОВАНИЯХ ЗЕМЛИ, Т. 15. № 4-2023
ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ
Литература
1. Барабанщиков В.A. Deepfake в исследованиях восприятия лица. М.: Издательство ИНГИ, 2018. 176 с.
2. Баранова Е.К. Информационная безопасность и защита информации с нуля до полного понимания. М.: Риор, 2018. 400 с.
3. Lyu S. Deepfake Detection: Current Challenges and Next Steps II IEEE International Conference on Multimedia & Expo Workshops (IC-MEW). 2020. P. 1-6. DOI: 10.1109/ICMEW46912.2020.9105991.
4. Xinyi Z., Reza Z. A Survey of Fake News: Fundamental Theories, Detection Methods and Opportunities II ACM Computing Surveys. 2020. Vol. 53,Iss. 5, pp. 1-40. DOI: 10.1145/3395046.
5. Dash A., Ye J., Wang G. A review of Generative Adversarial Networks (GANs) and its applications in a wide variety of disciplines II arXiv preprint. 2021.
6. Ярочкин В.И. Информационная безопасность. M.: Академический проект, 2018. 544 с.
7. Крон Д. Глубокое обучение в картинках. Визуальный гид по ИИ. Санкт-Петербург: Питер, 2016. 416 с.
8. Стюарт Р. Искусственный интеллект. Современный подход к решению актуальной проблемы. М.: МГИУ, 2017. 272 с.
9. Курцвейл Р. Как создать разум: секрет человеческого мышле-нияраскрыт. Санкт-Петербург: BHV, 2019. 368 с.
10. Songyuan L., Fan M., Chen R. Overview of generative adversarial networks. JPhys ConfSer. 2021.
11. Howse J., Minichino J. Learning OpenCV 4 Computer Vision with Python 3: Get to grips with tools, techniques, and algorithms for computer vision and machine learning. 3rd Editio, 2020. 372 p.
12. Johansson R. Numerical Python: Scientific Computing and Data Science Applications with Numpy, SciPy and Matplotlib. 2019. DOI: 10.1007/978-1-4842-4246-9.
13. Лемешевский C.B. Введение в библиотеку pandas. Институт математики HAH Беларуси. 2020.
14. Макмахан Б., РаоД. Знакомство с PyTorch. Глубокое обучение при обработке естественного языка. 2020. ISBN978-5-4461-1241-8.
15. Zhou T., Zhao Y., Wu J. Resnext andres2net structures for speaker verification. Microsoft Corporation, USA. 2020.
16. Jain A.K. Artificial neural networks: a tutorial//Computer. 1996. Vol. 29. № 3, pp. 31-44. DOI: 10.1109/2.485891.
17. Do N.Q. Phishing webpage classification via deep learning-based algorithms: an empirical study// Applied Sciences. 2021. Vol. 11. № 19. 32 p. DOI: 10.3390/applll99210.
18. Letou K. Host-based Intrusion Detection and Prevention System (HIDPS) II International Journal of Computer Applications. 2013. Vol. 69. № , pp. 28-33. DOI: 10.5120/12136-8419.
19. Mitchell T.M. Machine learning. New York: McGraw-hill. 1997. Vol. l.№9. 414 p. ISBN 0071154671, 9780071154673.
20. Goodfellow I. Deep learning. MIT press. 2016. 800 p. ISBN 9780262337373,0262337371.
SOFTWARE TOOL FOR DETECTING FAKE VIDEO CONTENT USING THE DEEPFAKE TECHNOLOGY OF THE GAN ALGORITHM
ALEXANDER A. DZHUROV
Rostov-on-Don, Russia
LARISA V. CHERKESOVA
Rostov-on-Don, Russia
ELENA A. REVYAKINA
Rostov-on-Don, Russia
ABSTRACT
Intoduction: in the modern world, one of the main and urgent problems is false content: news, videos, photos, etc. Early on in the development of Deepfake technology, it was used by amateur users to generate multimedia content by matching human facial expressions and phrases, usually owned by recognizable individuals, to create fake media that looked genuine. But the situation is changing, and Deepfake technology is being used not for compromising, but for campaigning and attracting political supporters. The purpose of the study: Software implementation of the video content recognition algorithm, synthesized using the Deepfake technology of the GAN algorithm, with acceptable accuracy. In the work, a software implementation was proposed that analyzes the video and makes a decision about the authenticity of this one. The main architectures of the GAN algorithm are pre-
KEYWORDS: Deepfake, GAN, neural network, Information Security, discriminator.
sented, as well as the opportunities and threats of using deepfake technology. An analysis of the features of the Xception and ResNeXt models trained using neural networks was carried out. Methods: For the system to work, it is necessary to select suitable neural networks based on performance results, which can be ResNeXt, XceptionNet or any other neural network. As part of this work, ResNeXt and XceptionNet will be considered and used in the software implementation, as well as BlazeFace is a pre-trained human face recognition model used to recognize faces in extracted images. Results: The function input is the path to the video (in the file system). The sample is frame-by-frame checked for the presence of a face in each individual frame, if the recognition was successful, the data is added to the list. Optionally, you can leave a fixed number of samples with the best quality among those presented.
Vol. 15. No. 4-2023 H&ES RESEARCH
INFORMATICS, COMPUTER ENGINEERING AND CONTROL
REFERENCES
1. V.A. Drummers, "Deepfake in face perception research," Moscow: INGN Publishing House, 2018. 176 p. (In Rus)
2. E.K. Baranova, Information security and information protection from scratch to full understanding," Moscow: Rior, 2018. 400 p. (In Rus)
3. S. Lyu, "Deepfake Detection: Current Challenges and Next Steps," IEEE International Conference on Multimedia & Expo Workshops (ICMEW). 2020, pp. 1-6. DOI: 10.1109/ICMEW46912.2020.9105991.
4. Z. Xinyi, Z. Reza, "A Survey of Fake News: Fundamental Theories, Detection Methods and Opportunities," ACM Computing Surveys. 2020. Vol. 53, Iss. 5, pp. 1-40. DOI: 10.1145/3395046.
5. A. Dash, J. Ye, G. Wang, "A review of Generative Adversarial Networks (GANs) and its applications in a wide variety of disciplines," arXiv preprint. 2021.
6. V.I. Yarochkin, "Information Security," Moscow: Academic project, 2018. 544 p. (In Rus)
7. D. Kron, "Deep learning in pictures," Visual guide to AI. St. Petersburg: Piter, 2016. 416 p. (In Rus)
8. R. Stuart, "Artificial intelligence. A modern approach to solving an actual problem," Moscow: MGIU, 2017. 272 p. (In Rus)
9. R. Kurzweil, "How to create a mind: the secret of human thinking is revealed," St. Petersburg: BHV, 2019. 368 p. (In Rus)
10. L. Songyuan, M. Fan, R. Chen, "Overview of generative adversarial networks," J Phys Conf Ser. 2021.
11. J. Howse, J. Minichino, "Learning OpenCV 4 Computer Vision with Python 3: Get to grips with tools, techniques, and algorithms for computer vision and machine learning," 3rd Edition, 2020. 372 p.
12. R. Johansson, "Numerical Python: Scientific Computing and Data Science Applications with Numpy," SciPy and Matplotlib. 2019. DOI: 10.1007/978-1-4842-4246-9.
13. S.V. Lemeshevsky, "Introduction to the pandas library," Institute of Mathematics of the National Academy of Sciences of Belarus. 2020. (In Rus)
14. B McMahan, D. Rao, "Introduction to PyTorch," Deep learning in natural language processing. 2020. ISBN:978-5-4461-1241-8. (In Rus)
15. T. Zhou, Y. Zhao, J. Wu, "Resnext and res2net structures for speaker verification," Microsoft Corp., USA. 2020.
16. A.K. Jain, "Artificial neural networks: a tutorial," Computer. 1996 Vol. 29. No. 3, pp. 31-44. DOI: 10.1109/2.485891.
17. N.Q. Do, "Phishing webpage classification via deep learning-based algorithms: an empirical study," Applied Sciences. 2021. Vol. 11. No. 19. 32 p. DOI: 10.3390/app11199210.
18. K. Letou, "Host-based Intrusion Detection and Prevention System (HIDPS)," International Journal of Computer Applications. 2013. Vol. 69. No. 26, pp. 28-33. DOI: 10.5120/12136-8419.
19. T.M. Mitchell, "Machine learning," New York: McGraw-hill. 1997 Vol. 1. No. 9. 414 p. ISBN 0071154671, 9780071154673.
20. I. Goodfellow, "Deep learning," MIT press. 2016. 800 p. ISBN 9780262337373, 0262337371.
INFORMATION ABOUT AUTHORS:
Alexander A. Dzhurov, postgraduate student of the profile "Information systems and processes", Department of Cybersecurity of information systems, Don State Technical University (DSTU), Rostov-on-Don, Russia, [email protected]
Larisa V. Cherkesova, Doctor of Physical and Mathematical Sciences, Full Professor of the Department of Cyber Security of Information Systems, Faculty of Informatics and Computer Engineering, acad. Russian Academy of Natural Sciences, corresponding member. International Academy of Sciences of Applied Radioelectronics, corresponding member. Russian Academy for the Study of National Security Problems, Don State Technical University (DSTU), Rostov-on-Don, Russia, [email protected]
Elena A. Revyakina, Assistant professor, PhD, Department of Cybersecurity of Information Systems, Faculty of Informatics and Computer Science, Don State Technical University (DSTU), Rostov-on-Don, Russia, [email protected]
For citation: Dzhurov A.A., Cherkesova L.V., Revyakina E.A. Software tool for detecting fake video content using the Deepfake technology of the GAN algorithm. H&ES Reserch. 2023. Vol. 15. No 4. P. 60-67. doi: 10.36724/2409-5419-2023-15-4-60-67 (In Rus)