Что такое дипфейк: как создать и зачем использовать в рекламе

Дипфейк (англ. deepfake, сокращение от deep learning и fake - "глубокое обучение" и "подделка") - это метод синтеза аудиовизуального контента с применением технологий искусственного интеллекта и машинного обучения. В основе дипфейков лежит использование генеративных состязательных нейросетей (GAN) для создания реалистичных изображений, видео или аудио с участием существующих людей в ситуациях, которые на самом деле не происходили.
Принцип работы дипфейка заключается в комбинировании и наложении элементов разных источников данных, таких как фотографии, видеозаписи, аудио реальных людей для формирования нового синтетического контента. Например, лицо известного человека может быть "пересажено" на тело другого актера с помощью алгоритмов замены и сшивки изображений на видео. Либо может быть сгенерирован аудиофайл, имитирующий голос определенного человека, который произносит заданный текст.
Результатом работы дипфейк-технологии являются цифровые артефакты, внешне неотличимые от реальных видео- и аудиозаписей, что делает их эффективным инструментом для создания обманчивого мультимедийного контента. Благодаря непрерывному прогрессу в области компьютерного зрения и обработки данных, качество генерируемых дипфейков постоянно улучшается.
Идея создания поддельных изображений и видео с помощью компьютерных технологий не нова, однако настоящий прорыв в этой области произошел благодаря стремительному развитию методов глубокого машинного обучения в последнее десятилетие.
Термин "дипфейк" впервые появился на специализированном форуме Reddit в 2017 году, когда пользователь под ником "deepfakes" начал публиковать порновидео, в которых лица знаменитостей были наложены на тела актрис с помощью алгоритмов на основе генеративно-состязательных сетей (GAN). Этот скандальный инцидент привлек внимание к возможностям новой технологии и спровоцировал бурные дискуссии о ее этических и правовых аспектах.
Несмотря на сомнительную репутацию в начале своего развития, дипфейк-технологии быстро нашли применение в более благородных сферах. Первопроходцами стали киноиндустрия и реклама, где цифровые двойники позволили экономить бюджеты на привлечение актеров и моделей. Знаковым событием стало использование дипфейков для "омоложения" актера Марка Хэмилла в серии фильмов "Звездные войны" в 2019 году.
На текущий момент сфера применения дипфейков существенно расширилась - от образовательных программ до политических манипуляций. Алгоритмы генерации продолжают совершенствоваться, делая синтетический контент все более реалистичным и малоотличимым от оригинального. В то же время, растут опасения по поводу этичного использования технологии и ее потенциальных злоупотреблений.
Принцип работы технологии
Описание генеративно-состязательных сетей (GAN) и их роли в создании дипфейков
В основе технологии создания дипфейков лежит использование генеративно-состязательных нейросетей (Generative Adversarial Networks, GAN). Эта архитектура машинного обучения состоит из двух конкурирующих нейронных сетей - генератора и дискриминатора.
Генератор создает синтетические образцы данных, такие как изображения или видео, на основе обучающего набора реальных примеров. Его задача - научиться генерировать контент, максимально приближенный к реальности. Дискриминатор, в свою очередь, анализирует как настоящие, так и сгенерированные данные и пытается отличить одни от других. По мере обучения GAN система совершенствует свои способности обмана дискриминатора.
Этот процесс можно представить как игру, в которой генератор выступает в роли фальшивомонетчика, пытающегося создать идеальную подделку, а дискриминатор является экспертом, который стремится безошибочно отличать поддельные данные от настоящих. Такая состязательная природа алгоритма заставляет обе нейронные сети непрерывно повышать свою точность и реалистичность.
Применительно к созданию дипфейков, GAN могут использоваться для замены или объединения разных источников данных, таких как изображения или видео реальных людей. Например, один генератор может научиться синтезировать портретные изображения, в то время как другой специализируется на создании фоновых сцен. При объединении результатов обеих нейросетей получается реалистичная композиция с наложенным лицом человека.
Таким образом, архитектура GAN позволяет создавать высококачественные поддельные изображения, видео и даже аудио, которые мало отличаются от настоящих с точки зрения человеческого восприятия. Именно поэтому генеративно-состязательные сети лежат в основе технологии дипфейков.
Виды дипфейков
В зависимости от техники создания и типа используемых данных, можно выделить несколько основных видов дипфейков:
Подмена лиц (Face Swap)
Это наиболее распространенный тип дипфейков, при котором лицо одного человека "пересаживается" на видео с другим человеком. Технология анализирует множество изображений цели и обучается воссоздавать ее лицо с различных ракурсов и в разных выражениях. Затем это синтетическое лицо накладывается на исходное видео путем точного совмещения деталей.
Синтез речи (Voice Cloning)
Здесь алгоритм обучается имитировать голос конкретного человека на основе образцов его речи. Синтезированный голос может произносить любой заданный текст, сохраняя все индивидуальные особенности оригинала - тембр, интонации, акцент и т.д. Такие аудиодипфейки находят применение в рекламе, озвучке фильмов и компьютерных игр.
Комбинированные
Наиболее сложный и совершенный тип дипфейков сочетает подмену лица и синтез речи. Результатом является видео, в котором человек не только выглядит, но и разговаривает совершенно реалистично, произнося слова, которые на самом деле никогда не произносил. Для создания такого контента требуется объединить работу нескольких нейросетей.
Стоит отметить, что качество создаваемых дипфейков во многом зависит от объема и качества исходных данных для обучения. Например, для успешной подмены лица требуется большая коллекция фотографий цели с разных ракурсов, при различном освещении, с разными эмоциями. Также важны вычислительные мощности используемых систем.
Сложности и ограничения технологии на текущий момент
Несмотря на стремительное развитие технологий дипфейков, на сегодняшний день они все еще имеют ряд ограничений и сложностей в создании полностью реалистичного контента:
Требовательность к исходным данным
Для качественной подмены лица или голоса требуется большой объем различных исходных данных - фотографий, видео, аудиозаписей человека в разных условиях освещения, ракурсов, выражений лица и т.д. Сбор такой базы является трудоемким процессом.
Артефакты и некорректности
Даже современные дипфейки могут содержать едва заметные артефакты и небольшие отклонения от естественного поведения человека - странные тени, неправильные блики, неестественные движения губ или лица и пр. Это делает их уязвимыми для детекторов подделок.
Высокие вычислительные требования
Для обучения нейросетей и генерации реалистичного видео требуются значительные вычислительные мощности. Не все создатели дипфейков имеют доступ к профессиональному оборудованию, что ограничивает качество результатов.
Сложность комбинирования
Создание полностью интегрированных дипфейков с подменой лица, синтезом речи и естественной мимикой - крайне сложная задача, требующая объединения работы нескольких нейросетей на высоком уровне. Незначительные ошибки могут легко выдать подделку.
Таким образом, несмотря на впечатляющие результаты, технология дипфейков продолжает совершенствоваться. Создатели сталкиваются с трудностями сбора качественных данных, требованиями мощного оборудования и сложностями комбинирования разных элементов в единый реалистичный контент.
Применение дипфейков в рекламе
Преимущества использования дипфейков в рекламе
Использование технологии дипфейков открывает перед рекламной индустрией множество преимуществ и новых возможностей:
Экономия бюджетов
Одно из главных преимуществ дипфейков - существенная экономия расходов на производство рекламных материалов. Вместо привлечения дорогостоящих актеров и моделей, достаточно приобрести права на использование их образов. Создание цифровых двойников обходится значительно дешевле, особенно для знаменитостей с высокими гонорарами.
Омниканальность
Дипфейк-технологии позволяют гибко адаптировать контент под разные каналы и форматы распространения. Один и тот же материал с цифровым лицом может быть легко конвертирован для публикации в социальных сетях, на телевидении, наружной рекламе и т.д.
Персонализация
Алгоритмы дипфейков способны генерировать множество вариаций одного и того же промо-ролика с разными акцентами, языками, внешностью представителя бренда. Это позволяет более эффективно таргетировать контент на локальные группы аудитории.
Актуализация контента
При необходимости внести изменения в уже существующие материалы, дипфейк-технологии дают возможность быстро обновить видео или аудио, изменив реплики или действия цифрового двойника, не привлекая исполнителей заново.
Омолаживание образов
В рекламных роликах часто задействуют популярных артистов и звезд прошлых лет. С помощью дипфейков их цифровые копии могут выглядеть значительно моложе, сохраняя при этом узнаваемые черты.
В целом, преимущества дипфейков для рекламного бизнеса очевидны - более низкие затраты, адаптивность контента и широкие возможности для креативных решений, что открывает новые горизонты для брендов.
Примеры успешных рекламных компаний с использованием дипфейков
Несмотря на относительную новизну технологии, уже есть немало примеров ее успешного применения в рекламном мире:
Ролик KFC с участием "полковника Сандерса"
В 2021 компания KFC запустила серию рекламных роликов, в которых основатель сети Харлан Сандерс предстал в образе танцующего и поющего рэпера. Этот цифровой двойник был полностью сгенерирован при помощи дипфейк-технологий на основе архивных видеоматериалов с настоящим Сандерсом из 1960-х годов.
Реклама ССВИДB с "воскресшим" Жоржем Милославским
В 2020 году ССВИДB создал вирусный рекламный ролик, на котором герой легендарной советской комедии "Иван Васильевич меняет профессию" Жорж Милославский в исполнении цифрового двойника Юрия Яковлева взаимодействует с современными банковскими продуктами.
Компания Lionsgate с помощью дипфейков "омолодила" актеров
Для промо исторического драматического сериала "Честь" использовались сгенерированные дипфейками лица актеров в молодом возрасте, представляющих их персонажей в начальных сезонах.
Подобные примеры демонстрируют креативный и технологически продвинутый подход брендов к продвижению своих продуктов и услуг. Использование дипфейков позволяет создавать запоминающийся, привлекательный и при этом бюджетный рекламный контент.