УДК 004.934.2

Выявления синтетических модификаций Deepfake в видеоизображениях

Лапушинский Кирилл Романович – бакалавр Санкт-Петербургского государственного университета аэрокосмического приборостроения

Аннотация: Стремительный прогресс в области информационных технологий привел к появлению приложений, основанных на технологии Deepfake, которая позволяет создавать поддельные изображения и видео, практически неотличимые от подлинных. В этой статье описывается технология Deepfake, и проливается свет на потенциальные последствия и риски, связанные с ее неправильным использованием. Кроме того, в статье рассматриваются методы и подходы, используемые для обнаружения синтетических модификаций, полученных с помощью технологии глубокой подделки. Поскольку эти манипуляции становятся все более изощренными, обнаружение и различение подлинного и фальсифицированного контента становится важнейшей задачей.

Ключевые слова: синтетические модификации, видеоизображение, нейронные сети, машинное обучение, глубокие подделки, внутрикадровый монтаж.

Введение

Бурное развитие информационных технологий в конце XX-XXI в. оказало существенное влияние на изменение социальной организации, обусловив возникновение информационного общества и цифровой экономики. Формирование мировых массмедиа, эволюция технологий компьютерной обработки информации, развитие Интернета и социальных сетей – эти и другие факты коренным образом изменили механизмы производства и распространения массовой информации, значительно расширив возможности для манипулирования индивидуальным и общественным сознанием [1].

Глубокое обучение успешно применяется для решения различных сложных задач. Одно из недавно появившихся приложений, основанных на глубоком обучении – Deepfake. Его алгоритмы могут создавать поддельные изображения и видео, которые люди не могут отличить от подлинных. Видео, созданные при помощи технологии Deepfake – это продукт искусственного интеллекта, который работает путем объединения, замены и наложения изображения или видеозаписи на оригинальное видео, создавая поддельную видеозапись. Главная цель создания таких фальсифицированных видеозаписей – добиться того, чтобы их невозможно было распознать [2]. При наложении снимков друг на друга и их соединении образуется фото/видеопоток, генерируя сходства и отличия изображений, загруженных в нейросеть. Например, анализируя компьютерными устройствами тысячи, а может, и миллионы фотографий Леонардо Ди Каприо, формируется определенная система закономерностей, на основе которых возникает новый контент в зависимости от уже имеющихся изображений в сети [3].

Растущая проблема синтетических модификаций видеоизображений

Появление технологии глубокой подделки породило растущую озабоченность по поводу синтетических модификаций видеоизображений. Используя передовые алгоритмы глубокого обучения, приложения Deepfake способны создавать высокореалистичные и вводящие в заблуждение видеоролики, создавая множество проблем в различных областях. Одним из ключевых технических аспектов, способствующих реалистичности видео Deepfake, является использование генеративных состязательных сетей (GAN). GAN состоят из двух нейронных сетей, генератора и дискриминатора, участвующих в непрерывной конкуренции. Генератор создает поддельные видео, в то время как роль дискриминатора заключается в том, чтобы отличать реальные кадры от поддельных. По мере того как генератор улучшает свою способность создавать вводящий в заблуждение контент, дискриминатор также совершенствуется, что делает обнаружение видео с глубокой подделкой более сложным  [4]. Последствия синтетических модификаций видеоизображений распространяются на вопросы безопасности, конфиденциальности и дезинформации. Например, эти манипулируемые видеоролики могут быть использованы для того, чтобы запятнать репутацию отдельных лиц, распространить ложные сведения и даже нарушить политический ландшафт.

Традиционные методы обнаружения глубоких подделок, основанные на артефактах или несоответствиях, часто можно обойти по мере развития алгоритмов подделки. Кроме того, огромный объем пользовательского контента в социальных сетях и Интернете делает ручную проверку непрактичной. Таким образом, разработка автоматизированных и надежных методов обнаружения подделок стала насущным приоритетом. Более того, предпринимаются значительные усилия по созданию всеобъемлющих наборов данных как из реальных, так и из синтетических видеороликов для эффективной подготовки моделей глубокого обучения. Крупномасштабные базы данных, содержащие миллионы видеороликов с участием разных людей, необходимы для повышения надежности и точности алгоритмов обнаружения глубоких подделок. Сотрудничество между академическими кругами, промышленностью и политиками имеет решающее значение для решения этой растущей проблемы. Такие инициативы, как Deepfake Detection Challenge, созданные ведущими организациями, стимулировали развитие методов обнаружения глубоких подделок.

Методы выявления Deepfake

По мере дальнейшего развития технологии Deepfake актуальность разработки надежных методов обнаружения становится первостепенной. Способность приложений Deepfake создавать обманчиво реалистичные видеоролики создает значительные трудности при проведении различия между подлинным и синтетическим контентом. Исследователи активно изучают передовые методы идентификации, чтобы решить эту насущную проблему. Обнаружение видео с глубокой подделкой предполагает обращение к сложности, присущей самой технологии. Алгоритмы глубокой подделки используют сложные генерирующие состязательные сети (GAN), позволяющие генератору создавать поддельные видеоролики, которые очень похожи на реальные кадры. Традиционные методы обнаружения с трудом выявляют едва заметные аномалии, присутствующие в этих видеороликах, что требует использования более продвинутых подходов.

В ответ на это в области обнаружения глубоких подделок был достигнут значительный прогресс благодаря внедрению методов глубокого обучения. Сверточные нейронные сети (CNN) доказали свою эффективность в анализе визуальных паттернов и выделении черт лица, что позволяет им выявлять неровности и артефакты в движениях лица. Тип данной модели глубокого обучения, специально разработан для обработки и анализа визуальных данных, таких как изображения и видео. CNN произвели революцию в задачах компьютерного зрения и добились замечательных успехов в различных приложениях, включая классификацию изображений, обнаружение объектов, сегментацию и генерацию изображений. Ключевой особенностью CNN является их способность автоматически изучать и извлекать иерархические объекты из изображений с помощью сверточных слоев. Эти слои используют фильтры или ядра для сканирования входного изображения и выполнения операций свертки, создавая карты объектов, которые выделяют соответствующие шаблоны и структуры. Фильтры изучаются в процессе обучения, что позволяет сети эффективно адаптироваться и распознавать различные визуальные особенности. Одним из важных аспектов CNN является концепция совместного использования параметров, которая значительно сокращает количество изучаемых параметров в сети. Вместо того чтобы изучать отдельные веса для каждой позиции изображения, CNN используют один и тот же набор фильтров для всего входного сигнала. Это не только приводит к созданию более эффективной модели, но и позволяет CNN изучать атрибуты, не зависящие от трансляции, что делает их устойчивыми к изменениям положения объектов на изображении. CNN зарекомендовали себя как мощный инструмент в различных задачах компьютерного зрения, включая классификацию изображений и обнаружение объектов. В контексте глубокой идентификации подделок CNN широко используются благодаря своей способности извлекать релевантные особенности из кадров изображений и эффективно фиксировать визуальные паттерны, указывающие на манипуляции. Основной рабочий процесс системы идентификации Deepfake на базе CNN включает в себя обучение сети на большом наборе данных, содержащем как реальные, так и поддельные видео. Во время обучения CNN учится выявлять закономерности и артефакты, характерные для контента Deepfake. После обучения модель может быть применена к новым данным для классификации. Преимущество CNN заключается в их способности автоматически изучать иерархические представления объектов, что делает их эффективными при обработке сложных и многомерных данных. Однако для достижения оптимальной производительности им может потребоваться значительный объем помеченных обучающих данных [5].

Рекуррентные нейронные сети (RNN) превосходно обрабатывают последовательные данные, что делает их пригодными для анализа временного потока выражений лица и выявления несоответствий. В отличие от нейронных сетей прямого действия, где информация течет только в одном направлении от входа к выходу, RNN имеют соединения, которые образуют циклы, позволяющие им сохранять скрытые состояния или память о прошлых входных данных. Эта способность сохранять контекст предыдущих входных данных делает RNN особенно хорошо подходящей для задач, связанных с данными временных рядов, обработкой естественного языка, распознаванием речи и видеоанализом. Фундаментальным строительным блоком RNN является рекуррентный нейрон, который принимает входные данные вместе с предыдущим скрытым состоянием в качестве входных данных и выдает выходные данные и новое скрытое состояние в качестве выходных данных. Эта повторяющаяся структура позволяет сети изучать зависимости и закономерности в последовательных данных. В то время как CNN преуспевают в задачах, основанных на изображениях, RNN хорошо подходят для последовательных данных, что делает их применимыми к временной информации, содержащейся в видео. Сети, в частности сети с долговременной кратковременной памятью (LSTM), использовались для глубокого распознавания лиц путем обработки последовательных кадров и фиксации временных зависимостей. RNN анализируют видеокадры последовательным образом, что позволяет им моделировать временную эволюцию манипуляций с глубокой подделкой с течением времени. Рассматривая межкадровые зависимости, модели на основе RNN могут эффективно выявлять расхождения и нерегулярности в видеопотоке. Однако RNN могут быть ресурсоемкими с точки зрения вычислений и страдать от таких проблем, как исчезающие градиенты, которые могут повлиять на их производительность в длинных видеопоследовательностях. Чтобы устранить эти ограничения, были предложены гибридные архитектуры, сочетающие CNN и RNN, позволяющие использовать сильные стороны обеих моделей [5].

Ещё одним прогрессивным подходом для обнаружения Deepfake является SSDN (Self-Supervised Decoupling Network – SSDN). SSDN использует два нейросетевых модуля: один для извлечения признаков из видео, а другой для извлечения признаков из аудиодорожки. Затем SSDN использует метод декаплирования для разделения признаков и создания дополнительных признаков, которые могут помочь в обнаружении подделок. SSDN – это прогрессивный и инновационный подход в области обнаружения глубоких подделок. Он использует возможности мультимодального обучения путем совместного анализа как аудио, так и визуальной информации для повышения точности и надежности идентификации синтетических манипуляций в видеороликах. Архитектура SSDN обычно состоит из двух модулей нейронной сети: один модуль для извлечения объектов из видеокадров и другой для извлечения объектов из звуковой дорожки. Оба модуля обучаются с самоконтролем, что означает, что сеть учится на основе самих данных, не требуя явных аннотаций или меток для обучающих выборок. Во время обучения SSDN использует временную и пространственную информацию в видеокадрах и аудиосигналах. Сеть учится понимать естественное совпадение и синхронизацию визуальных и слуховых сигналов в подлинных видеороликах. Любые расхождения или нестыковки, вносимые методами глубокой подделки, нарушат присущую аудио- и визуальным особенностям корреляцию, тем самым выделяя синтетический контент при обнаружении. Интегрируя информацию как из аудио, так и из визуальных источников, SSDN стремится повысить общую производительность обнаружения и устойчивость к различным стратегиям манипулирования глубокими подделками. Это обеспечивает более полное понимание контента, улавливая мельчайшие детали, которые могут быть упущены при использовании только одного метода анализа [6].

Кроме того, исследователи изучают мультимодальные подходы для повышения точности обнаружения. Благодаря включению анализа аудио и метаданных наряду с визуальными подсказками, объединенная информация обеспечивает более полную оценку подлинности видео. Звуковые сигналы, такие как несоответствие синхронизации губ или необычные голосовые паттерны, могут дополнять визуальные сигналы и усиливать процесс обнаружения. Доступность крупномасштабных наборов данных сыграла жизненно важную роль в совершенствовании методов обнаружения глубоких подделок. Наборы данных, такие как Deepfake Detection Dataset (DFD), содержат как реальные, так и синтетические видеоролики, что позволяет исследователям тренировать модели глубокого обучения на различных выборках и улучшать их возможности обобщения. Постоянное расширение и контроль за такими наборами данных имеют решающее значение для поддержания методов обнаружения в актуальном состоянии с учетом развивающихся методов глубокой подделки.

Заключение

Распространение синтетических модификаций в видеоизображениях  Deepfake представляет собой серьезную проблему в современную цифровую эпоху. Глубокие подделки обладают потенциалом для обмана, манипулирования и распространения дезинформации в беспрецедентных масштабах, оказывая влияние на различные секторы, такие как средства массовой информации, политика и безопасность. Однако благодаря тщательным исследованиям и совместным усилиям были достигнуты значительные успехи в выявлении и снижении рисков, связанных с технологией глубокой подделки. В этой статье были рассмотрены методы обнаружения, методы выделения признаков и модели машинного обучения, используемые в этой области. Заглядывая вперед, можно сказать, что будущие направления в исследованиях глубокой подделки имеют большие перспективы. Улучшение механизмов определения подлинности в режиме реального времени и отслеживания генерации Deepfake может значительно усилить нашу защиту от злоумышленников. Кроме того, изучение инновационных методов поможет сохранить целостность цифровых доказательств в различных областях.

Список литературы

  1. Kharin A.A. An Overview of Deepfake Technology and Its Impact on People // Молодежь. Общество. Современная наука, техника и инновации. 2022. № 21.
  2. Sonkusare M.G. et al. Detection and Verification for Deepfake Bypassed Facial Feature Authentication. Institute of Electrical and Electronics Engineers Inc., 2022. P. 646–649.
  3. Zhang T. Deepfake generation and detection, a survey // Multimedia Tools and Applications. Vol. 81, № 5.
  4. Aduwala S.A. et al. Deepfake Detection using GAN Discriminators. Institute of Electrical and Electronics Engineers Inc., 2021. P. 69–77.
  5. Wang R. et al. An overview of visual DeepFake detection techniques // Journal of Image and Graphics. Vol. 27, № 1.
  6. Zhang J., Ni J., Xie H. Deepfake Videos Detection Using Self-Supervised Decoupling Network. IEEE Computer Society, 2021.

Интересная статья? Поделись ей с другими: