深度换脸:伪造及检测方法综述
(深圳大学, 深圳 518060)
摘要: 在生成对抗网络 (GANs) 和扩散模型 (Diffusion Models) 等生成式模型的推动下, 人脸深度伪造 (Deepfake) 技术取得了显著进展。其中, 深度换脸作为Deepfake中应用最为普遍且最具影响的研究方向之一, 引起了人们的广泛关注。一方面, 该技术在日常娱乐、电影制作等多元领域中催生了新的创新可能性, 推动了相关行业的发展。另一方面, 其快速的技术演进也对个人隐私保护、社会稳定乃至国家安全构成了日益严峻的挑战。在此背景下, 研发高效且可靠的人脸深度伪造检测技术成为了应对这一复杂威胁的关键策略。首先, 文章综述了基于深度学习的换脸方法, 从生成方式和引导方式两个角度对换脸方法进行了归类分析总结。其次, 文章从图像空域和图像频域两个关键角度系统地概述了面向人脸图像的深度伪造检测技术。进一步地, 文章从帧内图像伪造特征、帧间时空特征融合和多模态信息融合等角度对面向视频的人脸深度伪造检测技术进行了分类整理。最后, 文章总结了深度换脸和检测算法在应对技术问题和隐私安全等方面的一系列挑战, 同时对未来的发展方向进行了探讨。
DOI: 10.48014/ccsr.20240102002
引用格式: 牛源晨, 李元满, 李斌, 等. 深度换脸: 伪造及检测方法综述[J]. 中国计算机科学评论, 2024, 2(3): 24-37.
文章类型: 综 述
收稿日期: 2024-01-02
接收日期: 2024-04-20
出版日期: 2024-09-28
1 引言
随着深度学习技术的迅速发展,人工智能在图像处理领域取得了显著的突破。在此背景下,基于深度学习的人脸深度伪造(deepfake)生成与检测方法成为备受学术界关注的研究方向之一。学者们长期以来一直在数字图像处理领域致力于解决各种科学问题,其中之一便是面部图像的合成与检测。在过去几十年的研究中,关于面部图像处理的工作取得了显著的进展。然而,传统方法由于对环境变化和面部表情变化的敏感性,在面临复杂的面部图像处理任务时逐渐显现出较大的局限性。
AI换脸技术(face swapping)是利用深度学习在最大限度保留目标人脸属性(如表情、姿势、头发、光照、背景等)的同时,将源人脸的身份信息迁移给目标人脸,使得换脸后的人脸图像同时具备源人脸的身份信息和目标人脸的属性信息,达到逼真的视觉效果[1]。该项技术的起源可以追溯到2017年,当时一位名为“deepfakes”的Reddit用户在该社区发布了若干涉及明星面部替换的短视频。这些创新且引人注目的内容迅速吸引了大量用户的注意力[2,3]。近年来,随着生成对抗网络(GANs)[4-6]和扩散模型(Diffusion Models)[7-9]等生成式模型的涌现,深度换脸技术取得了显著发展。这一技术的快速发展一方面带来了许多有趣的应用,如日常娱乐、电影制作、人像再现等。另一方面,这一系列“虚假”的图片、音频、视频等多媒体产品也带来了诸多安全隐患,如虚假信息、身份欺诈等问题,进而误导舆论、扰乱社会秩序甚至危害国家安全。当前,人脸深度伪造技术已经成为一种新型的网络攻击手段。在此背景下,研发能够有效检测逼真换脸图片和视频的取证技术具有重大意义[10]。
针对深度换脸生成和检测方法,本文将从技术原理、分类、挑战及未来发展方向等方面进行系统全面的梳理和阐述。
2 深度换脸技术
人脸深度伪造技术(Deepfake)是一种基于深度学习对面部图像进行操作的技术。这种技术主要包括人脸生成(Face Generation)、人脸编辑(Face Editing)、人脸交换(Face Swapping)[1]和人脸重演(Face Reenactment)[11]四种任务。其中人脸交换为目前最为流行的人脸深度伪造方法。人脸交换任务旨在使合成的人脸图像保持源人脸的身份信息,同时保留目标人脸的属性信息(如表情、姿态和光照等)。如图1,本文针对常用的深度换脸方法,根据换脸任务中所用的模型类型以及所编辑的人脸图像,从引导方式和生成方式两个角度进行分类阐述。
图1 深度换脸方法
Fig.1 The categories of deepfake methods
2.1 深度换脸的生成方式
2.1.1 基于三维重建的深度换脸
三维重建技术可以追溯到20世纪60年代,早期人们主要依赖于几何学和计算机视觉领域的传统方法,实现三维物体的重建和展示。随着技术的发展,三维重建技术已广泛应用于面部图像处理。其中,基于三维形变模型(3-D Morphable Model,3DMM)[12]的核心技术是一个重要的研究方向。3DMM是一种参数化的三维人脸模型,其核心思想是人脸的三维结构是许多独立控制人脸特征的基向量的线性组合。具体地,每一张人脸可以由人脸形状基和纹理基的线性加权得来。早期的3DMM模型需要基于传统的优化方法对模型系数进行求解,而随着深度学习的兴起,基于深度学习的系数回归算法为3DMM模型求解提供了更优的选择[13]。这也为基于三维重建的深度换脸方法奠定了坚实的技术基础。
早期,在Blanz等[14]和Nirkin等[15]提出的基于三维重建技术进行换脸的方法中,首先利用3DMM对面部图像进行三维重建,从而引入人脸结构参数作为先验信息。然后,结合人脸分割算法,通过3D拟合方法生成人脸区域。最后,利用泊松混合将源人脸与目标人脸进行融合,以保留光影信息,从而实现人脸交换。然而,由于3DMM模型本身的局限性,网络主要关注人脸的整体几何结构和一般性纹理,其在模拟身份细节方面的能力相对较弱,无法有效迁移源人脸身份信息。此外,泊松混合方法易产生伪影,难以处理复杂的外部条件。因此,Wang等[16]和Li等[17]进一步提出使用三维形状感知的身份提取器,以同步保留源人脸的身份信息和目标人脸的形状信息,避免了使用3DMM模型拟合时导致的身份细节丢失问题。同时其设计了一个语义人脸融合模块(Semantic Facial Fusion),利用注意力机制完成源人脸身份信息和目标人脸表情信息的自适应混合。在此基础上,Zhao等[18]训练了一个基于源人脸身份特征和目标人脸关键点信息的扩散模型。该方法充分利用3DMM提取到的三维特征,使模型在推理过程中能够使用三维先验信息更精细地控制面部形状。Li等[19]进一步利用人脸三维特征中丰富的几何和纹理先验,将二维人脸投影到三维生成式模型的隐空间,通过在隐空间中解耦人脸身份和属性特征,更好地实现了三维感知换脸。
2.1.2 基于自编码器的深度换脸
自编码器(Autoencoder)是一种无监督学习的神经网络模型,由编码器(Encoder)和解码器(Decoder)两部分构成,常用于学习特征表示。自编码器通过将输入数据映射为潜在表示(Latent Representation)并重建输入数据,从而使模型学到输入数据的关键特征。
早期,网络上被广泛应用的开源换脸项目DeepFakes采用了基于自编码器的方法来实现深度换脸[2,3]。如图2所示,DeepFakes框架由两个自编码器构成,二者的编码器共享参数。在训练阶段,两个自编码器分别学习重建源人脸和目标人脸。在推理阶段,只需将源人脸的潜在表示通过用于重建目标人脸的解码器,即可实现人脸交换的效果。为了进一步增强换脸后人脸图像的光影一致性,Perov等[3]在DeepFakes结构基础上提出了LIAE结构。LIAE结构具有共享权重的编码器(Encoder)、解码器(Decoder)以及两个独立的中间层(Inter),该结构通过对潜在表示巧妙的引导,以使其在不同方向上更加专注特定类别的特征,从而提高模型性能。
近期,掩码自编码器(Masked Autoencoder,MAE)[20]因其较高的泛化能力,已广泛应用于人脸交换任务。例如,FlowFace[21]采用预训练的MAE提取源人脸和目标人脸特征,通过交叉注意力融合模块(Cross-attention Fusion Module)自适应地融合源人脸身份特征和目标人脸属性特征,实现高质量换脸。
图2 Deepfakes框架
Fig.2 The architecture of deepfakes
2.1.3 基于生成对抗网络的深度换脸
生成对抗网络(Gensrative Adversarial Networks,GANs)是由Ian Goodfellow等[4]于2014年提出的一种深度生成式模型。该模型由生成器(Generator)和判别器(Discriminator)组成,基于生成对抗损失,二者相互对抗、共同进步。生成网络负责生成伪造的数据,而判别网络则负责辨别真伪。通过不断的对抗训练,生成网络逐渐提高生成数据的质量,使得判别网络难以分辨真实数据和生成数据。大量工作表明,GANs及其改进版本[22],已在图像生成[23,24]、图像编辑[25,26]、风格迁移[27,28]、图像超分[29,30]等领域展现出惊人的效果。
目前,生成对抗网络(GANs)也被广泛应用在换脸领域,并显著提升了换脸后人脸图像的真实感和细腻度。一般而言,在基于生成对抗网络的换脸方法中,生成器网络负责学习将源人脸迁移至目标人脸的能力;判别器网络负责评估生成图像的逼真程度。基于GANs的换脸模型在身份信息处理、特征对齐、细节保留等方法提供了创新性的解决方案,使得生成的人脸图像更加真实、自然,并且能够在不同身份之间进行平滑的转换。Nirkin等[31,32]首次构建了一个通用的深度换脸框架FSGAN,该方法基于条件生成对抗网络(conditional Generative Adversarial Networks,cGANS)并结合人脸关键点插值网络,无须重复训练即可实现任意人脸交换。为了进一步解决换脸图像中存在的面部遮挡问题,Li等[6]提出了一个两阶段换脸框架FaceShifter,进行多尺度身份信息注入,以实现高保真度和遮挡感知的人脸交换。Chen等[33,34]提出的SimSwap框架通过引入身份注入模块(ID Injection Module,IIM)和弱特征匹配损失(Weak Feature Matching Loss)解决源人脸身份信息泛化和目标人脸属性保留问题。
2.1.4 基于扩散模型的深度换脸
近年来,扩散模型(Diffusion Model)凭借其强大的生成能力,从众多生成式模型之中脱颖而出,并逐渐成为生成对抗网络GANs的替代模型。扩散模型是一种基于概率的生成模型,其核心思想是通过迭代过程将随机噪声逐步转化为服从目标分布的样本。其训练过程首先向数据添加高斯噪声(前向扩散过程),然后反转该过程(反向去噪过程)以恢复数据。与GANs相比,扩散模型能够提供更稳定的训练,在多样性和保真度方面显示出更理想的结果,已经广泛应用于条件生成[35]、图像编辑[36,37]和图像翻译[38,39]等。
Zhao等[9]和Kim等[40]提出的基于扩散模型的深度换脸算法是以源人脸的身份信息作为引导条件,对目标人脸图像进行扩散处理,以实现面部表情、姿态等细节的逼真替换。具体地,DiffSwap[9]基于Stable Diffusion[8]框架,引入源人脸的身份信息和区域特征(如眼睛、鼻子、嘴巴),以及目标人脸的关键点,共同作为条件输入引导扩散模型完成换脸任务。Diffface[40]基于ADM[41]框架构建了ID条件扩散模型,在面部特征引导策略和目标人脸特征保护策略的辅助下,实现高保真换脸。
2.2 深度换脸的引导方式
从引导方式的角度,人脸交换技术可以分为两大类:目标属性引导换脸和源身份引导换脸。其中,目标属性引导换脸通常利用神经网络提取目标人脸属性特征并将其整合到源人脸图像中;源身份引导换脸则利用源人脸的身份表示特征对目标人脸的身份信息进行修改,进而实现换脸。
2.2.1 基于目标属性引导的换脸方法
目标属性引导换脸要求根据从目标人脸中提取的属性来编辑源人脸。这意味着编辑的起点是源人脸,通过调整其属性以匹配目标人脸的特征。例如,Nirkin等[13]利用3DMM模型将源人脸属性信息与目标人脸对齐。FSGAN[31,32]利用目标人脸驱动源人脸,并引入混合网络完成面部区域与背景区域的融合。然而,因为基于目标属性引导的换脸方法主要侧重于调整源人脸以适应目标人脸,所以这类方法在处理光照变化、姿态差异以及背景复杂性等问题时通常面临一定的挑战。
2.2.2 基于源身份引导的换脸方法
相对而言,源身份引导换脸则需要提取源人脸的身份信息,并将这些信息注入目标人脸中。通常,这种方法依赖于人脸识别模型[42]或StyleGAN[24]解耦面部图像得到的潜在表示来体现源人脸的身份信息。例如,FaceShifter[6]和SimSwap[33,34]等在生成器集成了源身份嵌入模块以保留源人脸的身份信息。MegaFS[43]、RAFSwap[44]和HighRes[45]等利用StyleGAN预训练模型进行源人脸身份信息解耦,整合到目标人脸中,实现高分辨率人脸交换。由于源身份引导的换脸方法旨在从源人脸中抽取身份特征,然后将其整合到目标人脸上,该过程不易受到复杂的属性信息影响。因此这种方法更具通用性,使其在不同环境和场景中都能适用。
3 人脸深度伪造检测技术
人脸深度伪造技术的崛起使生成高度逼真的虚假人脸图像和视频变得异常容易。尽管换脸技术的进步为日常娱乐、影视制作等领域提供了广阔的创作空间,但其滥用带来的个人隐私和社会安全方面的隐患也引发了人们的严重担忧。特别是生成对抗网络和扩散模型等生成式深度学习模型的广泛应用,使得伪造人脸变得难以分辨。因此,开发有效的人脸深度伪造检测技术成为当务之急。如表1所示,本文将着眼于两个主要的研究方向:面向图像的人脸深度伪造检测和面向视频的人脸深度伪造检测。
3.1 面向图像的人脸深度伪造检测
面向图像的人脸深度伪造检测算法根据所提取空间特征类型的不同可以分为基于图像空域检测算法和基于图像频域的检测算法。
3.1.1 基于图像空域的人脸深度伪造检测算法
基于空域的检测算法以图像的像素空间为建模对象,主要关注图像的局部纹理、结构和特征。这类算法通常基于传统图像处理技术和深度神经网络,通过学习真实人脸图像和伪造人脸图像的差异性以区分待测图像。相关成果表明,利用传统图像分类网络EfficientNet、ResNet等对伪造图像进行多尺度特征提取,结合注意力机制模块,可以进行简单有效的检测[46,47]。由于真实人脸图像通常具有自然的纹理光照和一致的几何结构,而深度伪造图像可能在这些方面展现出异常的特征。因此,为了引导模型挖掘人脸图像中的局部可区分伪造特征,Zhao等[48]进一步将深度伪造检测问题转换为细粒度分类问题,基于Xception框架[49]引入纹理增强模块、注意力模块和双线性注意力池化模块,从而引导模型的不同通道关注人脸的不同区域。为了进一步提高检测算法的泛化性和鲁棒性,Shiohara等[50]提出利用自混合图像(Self-Blended Images,SBIs)主动生成逼真的伪造人脸,并将其用于训练检测算法。由于自混合图像仅通过改变真实人脸图像本身的关键点来生成虚假人脸图像,使得检测算法不依赖于特定伪造方法,因此相对而言可以更好地泛化到未知的伪造方法。Huang等[51]进一步引入基于对比学习的明确身份对比损失(Explicit Identity Contrast Loss,EICL)和隐含身份探索损失(Implict Identity Exploration Loss,IIEL)辅助检测模型更好地区分伪造人脸图像。
表1 人脸深度伪造检测技术
Table 1 Deepfake Detection Technologies
检测对象 |
方法 |
概述 |
局限性 |
面向图像的人脸深度伪造检测技术 |
基于图像空域[46-51] |
伪造的人脸图像在原始像素空间中通常保留有篡改痕迹,捕捉这些痕迹可以实现简便有效的伪造检测 |
●泛化性差 ●抗图像压缩差 |
|
基于图像频域[52-56] |
频域结构对比揭示了伪造图像和真实图像的显著差异,通过分析这些频域间的差异性,可实现高效的伪造检测 |
●难以解决对抗攻击 ●鲁棒性差 |
面向视频的人脸深度伪造检测技术 |
基于帧内图像伪造特征[57-61] |
视频帧携带丰富的空频信息,通过综合利用这些信息来挖掘伪造痕迹,实现对伪造视频的准确检测 |
●未充分利用视频丰 富的时空信息 |
|
基于帧间时空特征融合[62-67] |
伪造视频帧间通常呈现显著的动态不一致性,通过时空建模捕捉帧间变化,实现更为精准的伪造视频检测 |
●训练代价大 ●计算复杂度高 |
|
基于多模态信息融合[68-70] |
视频中综合表达了图像、音频和光流等多模态信息。有效融合这些信息,能够显著提升对伪造视频的检测性能 |
●缺乏有效的特征融合方法 |
3.1.2 基于图像频域的人脸深度伪造检测算法
虚假图像在网络传播过程中,经过多次压缩会丢失大量空域中的伪造痕迹,导致基于图像空域的检测算法性能急剧下降。因此,研究者从图像频域出发,尝试挖掘新的伪造检测线索。一般而言,真实人脸图像通常具有特定频率分布以及相干的相位结构,而伪造人脸图像则可能显示出异常频率特征和不规则的相位模式。同时,伪造图像不连贯的纹理模式也会在频域信息上有所体现,通过频域分析能够有效地捕捉到图像中细微的频率特征和纹理模式。此外,频域信息在图像的压缩过程中相对稳定,即使在图像被压缩后,频域特征仍然能够保持较高的可辨识度,从而有助于识别出图像中的异常纹理和伪造痕迹。Zhang等[52]发现真实人脸图像和基于GANs生成的伪造人脸图像在DFT频谱上存在明显差异,因此训练了一个以图像频谱作为输入的分类器,从而有效区分真实和伪造人脸图像。Dzanic等[53]进一步发现真实图像和伪造图像在傅里叶频谱的高频信息衰减上存在差异,并基于这种衰减差异进行建模检测。Giudice等[54]基于图像的DCT变换系数的分布进行建模检测。Qian等[55]设计了一个双流网络F3Net,其中频率感知分解网络(Frequency-aware Decomposition)自适应地分解图像频域特征,局部频率统计网络(Local Frequency Statistic)使用滑窗DCT技术提取图像的局部频域统计信息。然后,基于交叉注意力机制完成更全面的频域信息融合,提升伪造图像检测的性能。图像频域中不同频率分量往往反映不同的图像信息,其中高频信息中包含了更丰富的细节和纹理特征。专注于高频信息的分析使检测算法能够更敏感地捕捉到细微的伪造痕迹,提高深度伪造检测算法的可靠性和准确性。例如,Li等[56]设计了自适应频率特征提取模块(Adaptive Frequency Feature Generation Module)进行数据预处理和自适应频率信息挖掘,并使用单中心损失(single-center loss)对模型进行优化。该方法在最小化真实人脸特征与中心点距离的同时,使伪造人脸特征尽可能远离中心点。
3.2 面向视频的人脸深度伪造检测
视频中包含的图像、音频和时域信息为研究面向视频的人脸深度伪造检测算法提供了更多的研究思路。目前,面向视频的人脸深度伪造检测主要可以分为基于帧内图像伪造特征的检测方法、基于帧间时空特征融合的检测方法和基于多模态信息的检测方法。
3.2.1 基于帧内图像伪造特征的检测方法
由于视频可看作多个静态图像的集合,因此部分面向图像的伪造检测算法也可被迁移至面向视频的伪造检测中。例如,Rossler[57]等利用Xception模型对伪造视频帧中人脸区域图像进行分类训练,实现了对人脸深度伪造视频的有效检测。由于deepfake算法在生成伪造人脸时会进行适当的仿射变换以与源人脸匹配,Li等[58]认为这个过程会在视频中留下独特的伪影,并利用深度神经网络捕获这些伪造痕迹以完成检测。为了对图像全局上下文和局部细节进行充分建模,Dong等[59]利用ViT(Vision Transformer)捕获伪造人脸区域的不一致性以实现伪造人脸检测。Matern等[60]关注于伪造人脸的视觉伪影,从光影信息、几何形状和全局一致性等角度对视觉伪影进行分类,并用神经网络对其提取特征用于检测。Li等[61]进一步挖掘视频帧中伪造人脸与背景内容在边缘拼接区域的篡改痕迹,获得了较好的跨数据集泛化性。
3.2.2 基于帧间时空特征融合的检测方法
基于帧间时空特征融合的检测方法综合考虑视频中不同帧之间的关联,提高伪造视频的检测效果。首先,帧间关系建模允许算法捕捉视频中关键的运动模式,揭示可能存在的伪造痕迹。这种对运动信息的深入分析使得算法能够更加敏感地察觉伪造视频中潜在的不自然动态行为,从而提高检测的灵敏度。其次,时空特征提取使得系统能够同时考虑视频序列中的时序信息和空间特征。这种多维度特征的提取不仅可以有效捕捉视频中的动态演变,同时有助于检测模型对空间上的细微变化有更深入的理解。最后,特征融合机制旨在让帧间关系和时空特征进行有效的信息交流。这种融合机制使得系统能够更好地适应各种伪造技术和复杂的视频内容,提高整个检测系统的鲁棒性。
Guera等[62]、Liy等[63]和Sabir等[64]利用LSTM等经典循环神经网络对视频帧特征和时空特征进行融合建模,构建帧间关系图,捕捉伪造视频的帧间不一致性,Amerini等[65]从视频编码的角度,利用CNN和LSTM网络分别对视频编码过程中的帧间预测误差进行特征提取和时序建模,最后得到分类结果。Masi等[66]利用LSTM网络对双流网络提取RGB特征和高频特征并进行时间相关性建模,更全面地捕捉视频数据中的时空信息。为了进一步挖掘时间序列信息,Yu等[67]基于Transformer提出了一种多时空视图网络(Multiple Spatiotemporal Views Transformer),利用局部时空视图来捕获帧间的动态不一致性,利用全局时空视图和特征融合模块建立全局时空视图,最后利用Transformer整合多层次特征用于检测。
3.2.3 基于多模态信息融合的检测方法
随着深度伪造技术的不断发展,传统的单一模态检测方法面临着越来越大的挑战。为了提高对伪造视频的检测效果,研究者们尝试提取多模态特征并进行有效整合,以提高检测算法的泛化性和鲁棒性。多模态信息通常包括视频空域、频域、时域以及音频等多种类型的信息。通过挖掘各种模态信息中潜在的伪造痕迹,并基于各模态信息之间的联系对其进行综合分析,可以更准确地揭示视频的真伪。从视觉模态特征和听觉模态特征相结合的角度,Haliassos等[68]利用预训练的唇语识别模型,对伪造视频相邻帧间唇部运动的连续性进行检测。为了进一步提升模型鲁棒性,Haliassos等在之前工作的基础上提出RealForensics[69]对音频和视频分别进行特征提取,利用自监督的方式让模型学习唇部运动和面部表情与音频信息的映射关系,有效地提高了模型的鲁棒性和泛化性。Yu等[70]充分挖掘音频信息与视觉信息两种模态之间的一致性,提出了预测性视觉音频对齐的多模态深度伪造检测方法(Predictive Visual-Audio Alignment Self Supervision for Multimodal Deepfake Detection,PVASS)。该方法提出了一个基于Swin Transformer的三分支网络用于关联两个增强的视觉视图与相应的音频线索,并引入跨模态预测对齐模块以消除视听差距,恢复原有的视听对应关系。最后利用预训练好的PVASS网络捕获视频的音画不一致性,从而实现伪造视频的检测。
4 挑战
4.1 深度换脸技术的挑战
虽然,目前在人脸深度伪造技术在图像合成领域已经取得了显著的进展,但也面临着一系列技术、伦理和社会安全等多个层面的挑战。
(1)多模态信息整合。人脸深度伪造需要综合考虑多个方面的信息,如面部表情、光照、姿态和环境等。实现这些信息的精准整合对于生成真实且多样的伪造图像至关重要。此外,人脸深度伪造技术不仅仅局限于静态图像,在涉及人脸视频深度伪造时,多模态信息的整合变得更为关键。生成逼真的人脸视频不仅要考虑面部表情、光照、姿态和环境等因素,还需要在时间维度上保持一致性和流畅性。当前,有效整合多模态信息仍然是一个迫切需要解决的技术难题。在人脸视频深度伪造中,确保伪造的人脸在整个视频序列中保持自然且真实,需要算法能够准确地捕捉到人脸在不同帧之间的连续性和变化。在未来的研究中,需要致力于发展能够有效整合多模态信息的先进算法,以推动人脸视频深度伪造技术的进一步发展。
(2)多层次信息解耦。在人脸深度伪造领域,生成逼真的人脸图像不仅仅需要模型准确捕捉面部特征,还要确保生成的图像在身份信息和表情等方面与原始数据一致。然而,人脸图像的身份信息和表情信息通常高度耦合,这使得在模型决策中有效解耦这些多维度信息变得极具挑战性。具体地,身份信息和表情信息之间的紧密联系增加了模型在学习和生成过程中的复杂性。由于这两者之间相互影响,模型可能会难以区分何时强调身份信息,何时强调表情信息。有效解耦这些信息需要模型能够辨别和权衡不同信息,以确保生成的人脸图像既保持身份的稳定性又传达逼真的表情。解决多维信息解耦的挑战需要进一步研究先进的深度学习模型和算法。这可能包括设计更有效的损失函数,以引导模型更好地区分和整合身份信息和表情信息。同时可以探索合成技术和迁移学习等方法,以增强模型在多维度信息解耦方面的泛化能力。有效解决这一挑战将推动人脸深度伪造技术朝着更加准确且多样的方向发展。
(3)数据隐私与社会安全。使用大规模人脸数据集进行训练,尤其包含敏感信息的数据,引发了人们对个人隐私和安全的关切。人脸深度伪造技术的广泛应用不仅可能导致图像滥用和欺诈问题,还可能对社会安全造成潜在威胁。虚假新闻可能通过伪造人脸图像来增强其可信度,而身份冒用也可能在社会生活中引发重大纠纷。因此,防范和应对这些社会问题成为一项紧迫的伦理挑战。随着技术的不断演进,人脸深度伪造技术的应用将不可避免地涉及到法律法规问题。有必要建立更加明确和严格的法规框架,以规范人脸深度伪造技术的开发和使用。这可能涉及到合规性审查、隐私法规的加强以及对滥用行为的处罚。同时,跨学科的合作和深入研究也是至关重要的,以找到平衡技术发展和社会责任之间的最佳途径。只有通过全社会共同努力,才能确保人脸深度伪造技术在维护数据隐私和社会安全方面取得更为可持续和健康的发展。
4.2 人脸深度伪造检测技术的挑战
面对不断演变和复杂化的人脸深度伪造技术,目前的人脸深度伪造检测方法仍然面临着一系列严峻的挑战。
(1)异质性伪造技术的不断涌现。人脸深度伪造技术呈现出多样性和异质性,从基本的图像篡改到基于生成对抗网络(GANs)和扩散模型(DMs)生成的逼真合成图像,这种异质性给人脸深度伪造检测带来了极大的挑战。同时伪造者不断调整策略,采用新的技术手段规避检测算法,使得传统检测方法在面对不同类型的伪造技术时表现不稳定。因此,提高算法的适应性和泛化能力成为当前研究亟须解决的问题。
(2)伪造人脸“以假乱真”。随着生成式模型技术的不断进步,伪造人脸的逼真度不断提高,使其与真实人脸的区别变得日益微妙。逼真的伪造图像在细节、光照和表情等方面几乎达到真实人脸的水平,传统的伪造检测网络已经难以捕捉到这些微小的差异。因此,如何在高逼真度的伪造图像中提取有效的合成特征成为当前研究的一个重要问题。
(3)多模态特征的有效结合。与静态图像相比,在面向动态视频的人脸深度伪造中,攻击者可以使用更加复杂的技术来制作伪造内容。仅仅依靠单一模态信息(如静态图像或视频帧)可能无法提供足够的鲁棒性。因此,有效融合多模态信息,如RGB图像、频谱图、光流和音频等,成为确保检测系统抵抗不同伪造手段的关键。
(4)缺乏大规模高质量且多样性的数据集。人脸深度伪造检测算法的训练通常需要大规模的标注数据,同时要涵盖多种伪造方法,以确保模型具有足够的泛化能力。此外,互联网上伪造视频的压缩方式、压缩率和分辨率等参差不齐,面对各种复杂场景,由于缺乏高质量伪造数据,使检测算法难以应对商用定制化高逼真度的人脸伪造图像。因此,构建一个大规模、高质量、多样化的人脸深度伪造数据集是一项艰巨的任务。
5 未来发展方向
深度换脸技术的不断演进与深度换脸检测技术的发展形成了一场技术对抗的竞赛,其中各方势力均力图在不断升级的技术战场中占据优势。这场竞赛反映了科技创新的蓬勃发展,同时也揭示了人工智能领域中不断涌现的新挑战。在这个不断升级的技术竞技场中,深度换脸技术以其在高分辨率和逼真度方面的显著进展,使生成的人脸图像在肉眼难以分辨的程度上达到了前所未有的高度。这意味着社会需要更强大、更智能的检测手段来应对这一技术的滥用。这场竞赛促使各方不断创新,推动技术发展的边界,但同时也引发了对伦理和隐私的深刻思考。
5.1 深度换脸技术
深度换脸技术目前已经在高分辨率和高逼真度的人脸图像伪造方面取得了显著进展,使得生成的人脸图像在视觉上几乎无法与真实区分。然而,尽管技术已经达到了“以假乱真”的水平,但当前的算法却在充分利用时序信息方面存在一定的不足,尤其在生成换脸视频时,帧间一致性的表现较差。在视频帧间,存在明显的细节丢失、纹理差异以及内容不连贯等问题,制约了深度换脸技术在视频应用中的全面发展。具体发展方向体现在以下几个方面。
(1)时序信息的有效整合。深入分析视频帧之间的关联性,探索更先进的时序建模方法,以便在生成过程中更好地保持面部特征的一致性,确保生成的人脸在不同时间点仍然保持自然统一的外观。
(2)基础模型结构的改进。进一步优化生成式网络的结构和损失函数,以提高生成的视频的时间一致性和真实感。算法的改进涉及到更智能的帧间插值、运动流估计等技术的引入,以减轻细节丢失和纹理不匹配的问题。
(3)多模态信息融合。将语音、姿态和表情等多模态信息与时序信息相结合,以更全面、真实地还原人脸在视频中的表现。通过综合考虑多个信息源,可以提高生成视频的自然度和连贯性,使其更符合真实场景中的行为。
(4)伦理考量与隐私保护。随着深度换脸技术的发展,伦理问题和隐私保护将成为重要关注点。未来的研究需要认真思考对于使用该技术可能带来的道德和社会问题,这包括但不限于滥用、欺骗、隐私侵犯等。研究者和开发者需积极参与伦理讨论,并采取相应的技术手段,确保技术的负面影响最小化。
5.2 人脸深度伪造检测技术
人脸深度伪造检测技术在当前社会的数字化环境中具有重要意义。尽管目前已经取得了一定的进展,但仍然存在一些挑战,特别是在应对高度逼真的伪造图像和视频时。以下是深度换脸检测技术未来发展的几个关键方向。
(1)对抗性学习。面对不断演进的伪造技术,深度换脸检测技术亟须引入对抗性学习,以更为有效地适应日益复杂的伪造攻击。通过训练模型对各类对抗性伪造技术的辨识能力,可提升检测系统的稳健性和抗攻击性。
(2)多维信息的有效融合。虽然已有一些工作在多维信息融合方面进行了尝试,但是这些方法仍在有效整合图像、语音、行为模式等多模态信息方面存在缺陷。因此,为建立更全面、多角度的检测模型,需要进一步探索更加有效的多模态信息融合方法,以实现对伪造图像精准且可靠的检测。
(3)迁移学习与元学习。利用迁移学习和元学习的技术,使深度换脸检测系统能够更好地适应不同环境和数据分布,提高模型的泛化能力。这种方法可以使检测系统更好地适应新的伪造技术,缓解因技术不断更新而导致的性能下降问题。
6 结束语
深度换脸技术在生成逼真人脸图像和视频方面取得了显著进展,然而,这也带来了对社会安全和隐私的重大挑战。深度换脸检测技术的发展是应对换脸技术滥用的关键,为实现换脸技术的健康发展提供了有力支持。本文详细阐述了深度换脸技术的不同生成方式和引导方式,以及面向图像和视频的深度换脸检测技术。同时,本文也总结了深度换脸及检测技术面临的挑战,并对未来的发展方向进行了展望。
利益冲突: 作者声明没有利益冲
[①] *通讯作者 Corresponding author:李元满,yuanmanli@szu.edu.cn
收稿日期:2024-01-02; 录用日期:2024-04-20; 发表日期:2024-09-28
参考文献(References)
[1] Korshunova I, Shi W, Dambre J, et al. Fast face-swap using convolutional neural networks[C]. In Proceedings of the IEEE international conference on computer vision. 2017: 3677-3685.
[2] Deepfakes. 2019.
https://github.com/deepfakes/faceswap
[3] Liu K, Perov I, Gao D, et al. Deepfacelab: Integrated, flexible and extensible face-swapping framework[J]. Pattern Recognition. 2023, 141: 1-12.
https://doi.org/10.1016/j.patcog.2023.109628
[4] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[J]. In Proceedings of the Advances in neural information processing systems, 2014, 27: 139-144.
https://doi.org/10.1145/3422622
[5] Mirza M, Osindero S. Conditional generative adversarial nets[J]. arXiv preprint arXiv: 1411. 1784, 2014.
[6] Li L, Bao J, Yang H, et al. Faceshifter: Towards high fidelity and occlusion aware face swapping[J]. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 5073-5082.
[7] Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models[J]. In Proceedings of the Advances in neural information processing systems, 2020, 33: 6840-6851.
[8] Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 10684-10695.
https://doi.org/10.1109/CVPR52688.2022.01042
[9] Zhao W, Rao Y, Shi W, et al. DiffSwap: High-Fidel-ity and Controllable Face Swapping via 3D-Aware Masked Diffusion[C]. In Proceedings of the IEEE/C-VF Conference on Computer Vision and Pattern Rec-ognition. 2023: 8568-8577.
https://doi.org/10.1109/CVPR52729.2023.00828
[10] Agarwal S, Farid H, Gu Y, et al. Protecting World Leaders Against Deep Fakes[C]. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2019: 38-45.
https://doi.org/10.1073/pnas.2216035119
[11] Yang K, Chen K, Guo D, et al. Face2Face ρ: Real-Time High-Resolution One-Shot Face Reenactment[C]. In Proceedings of the European conference on computer vision. 2022: 55-71.
[12] Blanz V, Vetter T. A morphable model for the synthesis of 3D faces[C]. In Proceedings of the Annual Conference on Computer Graphics and Interactive Techniques. 1999: 187-194.
https://doi.org/10.1145/311535.311556
[13] Tuan Tran A, Hassner T, Masi I, et al. Regressing robust and discriminative 3D morphable models with a very deep neural network[C]. In Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 5163-5172.
https://doi.org/10.1109/CVPR.2017.163
[14] Blanz V, Scherbaum K, Vetter T, et al. Exchanging faces in images[C]. Computer Graphics Forum, 2004, 23(3): 669-676.
https://doi.org/10.1111/j.1467-8659.2004.00799.x
[15] Nirkin Y, Masi I, Tuan A T, et al. On face segmentation, face swapping, and face perception[C]. IEEE International Conference on Automatic Face & Gesture Recognition. 2018: 98-105.
https://doi.org/10.1109/FG.2018.00024
[16] Wang Y, Chen X, Zhu J, et al. Hififace: 3d shape and semantic prior guided high fidelity face swapping[J]. In Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence. 2021: 1136-1142.
https://doi.org/10.24963/ijcai.2021/157
[17] Li J, Li Z, Cao J, et al. Faceinpainter: High fidelity face adaptation to heterogeneous domains[C]. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 5089-5098.
https://doi.org/10.1109/CVPR46437.2021.00505
[18] Zhao W, Rao Y, Shi W, et al. DiffSwap: High-Fidel-ity and Controllable Face Swapping via 3D-Aware Masked Diffusion[C]. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 8568-8577.
https://doi.org/10.1109/CVPR52729.2023.00828
[19] Li Y, Ma C, Yan Y, et al. 3D-Aware Face Swapping [C]. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 12705-12714.
https://doi.org/10.1109/CVPR52729.2023.01222
[20] He K, Chen X, Xie S, et al. Masked autoencoders are scalable vision learners[C]. In Proceedings of the IEEE/CVF conference on computer vision and pattern re-cognition. 2022: 16000-16009.
https://doi.org/10.1109/CVPR52688.2022.01553
[21] Zeng H, Zhang W, Fan C, et al. Flowface: Semantic flow-guided shape-aware face swapping[C]. In Proceedings of the AAAI Conference on Artificial Intelligence. 2023, 37(3): 3367-3375.
https://doi.org/10.1609/aaai.v37i3.25444
[22] Arjovsky M, Chintala S, Bottou L. Wasserstein gene-rative adversarial networks[C]. In Proceedings of the International conference on machine learning. 2017: 214-223.
https://doi.org/10.1145/3625820
[23] Odena A, Olah C, Shlens J. Conditional image synthesis with auxiliary classifier gans[C]. In Proceedings of the International conference on machine learning. 2017: 2642-2651.
[24] Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks[C]. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 4401-4410.
https://doi.org/10.1109/TPAMI.2020.2970919
[25] Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[C]. In Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1125-1134.
https://doi.org/10.1109/CVPR.2017.632
[26] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[ C]. In Proceedings of the IEEE international conference on computer vision. 2017: 2223-2232.
https://doi.org/10.1109/ICCV.2017.244
[27] Karras T, Laine S, Aittala M, et al. Analyzing and im- proving the image quality of stylegan[C]. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 8110-8119.
https://doi.org/10.1109/CVPR42600.2020.00813
[28] Karras T, Aittala M, Laine S, et al. Alias-free generative adversarial networks[J]. In Proceedings of the Advances in Neural Information Processing Systems. 2021, 34: 852-863.
[29] Ledig C, Theis L, Huszár F, et al. Photo-realistic single image super-resolution using a generative adversarial network [C]. In Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 4681-4690.
https://doi.org/10.1109/CVPR.2017.19
[30] Bulat A, Yang J, Tzimiropoulos G. To learn image super- resolution, use a gan to learn how to do image degradation first[C]. In Proceedings of the European conference on computer vision. 2018: 185-200.
[31] Nirkin Y, Keller Y, Hassner T. Fsgan: Subject agnostic face swapping and reenactment[C]. In Proceedings of the IEEE/CVF international conference on computer vision. 2019: 7184-7193.
https://doi.org/10.1109/ICCV.2019.00728
[32] Nirkin Y, Keller Y, Hassner T. FSGANv2: Improved subject agnostic face swapping and reenactment[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45(1): 560-575.
https://doi.org/10.1109/TPAMI.2022.3155571
[33] Chen R, Chen X, Ni B, et al. Simswap: An efficientframework for high fidelity face swapping[C]. In Proceedingsof the ACM International Conference on Multimedia. 2020: 2003-2011.
https://doi.org/10.1145/3394171.3413630
[34] Chen X, Ni B, Liu Y, et al. SimSwap++: Towards Fasterand High-Quality Identity Swapping[J]. IEEETransactions on Pattern Analysis and Machine Intelligence, 2023, 46: 576-592.
https://doi.org/10.1109/TPAMI.2023.3307156
[35] Choi J, Kim S, Jeong Y, et al. Ilvr: Conditioning methodfor denoising diffusion probabilistic models[J]. In Proceedingsof the IEEE/CVF International Conference onComputer Vision. 2021: 14347-14356.
https://doi.org/10.1109/ICCV48922.2021.01410
[36] Lugmayr A, Danelljan M, Romero A, et al. Repaint: Inpaintingusing denoising diffusion probabilistic models[C]. In Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition. 2022: 11461-11471.
https://doi.org/10.1109/CVPR52688.2022.01117
[37] Meng C, Song Y, Song J, et al. Sdedit: Image synthesisand editing with stochastic differential equations[J]. InProceedings of the International Conference on LearningRepresentations. 2022.
[38] Saharia C, Chan W, Chang H, et al. Palette: Image-toimagediffusion models[C]. In Proceedings of the ACMSIGGRAPH. 2022: 1-10.
https://doi.org/10.1145/3528233.3530757
[39] Seo J, Lee G, Cho S, et al. Midms: Matching interleaveddiffusion models for exemplar-based image translation[C]. In Proceedings of the AAAI Conference on ArtificialIntelligence. 2023, 37(2): 2191-2199.
https://doi.org/10.48448/qmj8-2718
[40] Kim K, Kim Y, Cho S, et al. Diffface: Diffusion-basedface swapping with facial guidance[J]. arXiv preprintarXiv: 2212. 13344, 2022.
[41] Dhariwal P, Nichol A. Diffusion models beat gans onimage synthesis[J]. In Proceedings of the Advances inneural information processing systems. 2021, 34: 8780-8794.
[42] Deng J, Guo J, Xue N, et al. Arcface: Additive angularmargin loss for deep face recognition[C]. In Proceedingsof the IEEE/CVF conference on computer visionand pattern recognition. 2019: 4690-4699.
https://doi.org/10.1109/CVPR.2019.00482
[43] Zhu Y, Li Q, Wang J, et al. One shot face swapping onmegapixels[C]. In Proceedings of the IEEE/CVF conferenceon computer vision and pattern recognition. 2021: 4834-4844.
https://doi.org/10.1109/CVPR46437.2021.00480
[44] Xu C, Zhang J, Hua M, et al. Region-aware face swapping[C]. In Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. 2022: 7632-7641.
https://doi.org/10.1109/CVPR52688.2022.00748
[45] Xu Y, Deng B, Wang J, et al. High-resolution faceswapping via latent semantics disentanglement[C]. InProceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition. 2022: 7642-7651.
https://doi.org/10.1109/CVPR52688.2022.00749
[46] Tan M, Le Q. Efficientnet: Rethinking model scaling forconvolutional neural networks[C]//In Proceedings of International conference on machine learning. 2019: 6105-6114.
[47] He K, Zhang X, Ren S, et al. Deep residual learnin-g forimage recognition[C]//In Proceedings of the IEEEconference on computer vision and pattern recog-nition. 2016: 770-778.
[48] Zhao H, Zhou W, Chen D, et al. Multi-attentional deepfakedetection[C]. In Proceedings of the IEEE/CVFconference on computer vision and pattern recognition. 2021: 2185-2194.
https://doi.org/10.1109/CVPR46437.2021.00222
[49] Chollet F. Xception: Deep learning with depthwise separableconvolutions[C]//In Proceedings of the IEEEconference on computer vision and pattern recognition. 2017: 1251-1258.
[50] Shiohara K, Yamasaki T. Detecting deepfakes with selfblendedimages[C]. In Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition. 2022: 18720-18729.
https://doi.org/10.1109/CVPR52688.2022.01816
[51] Huang B, Wang Z, Yang J, et al. Implicit identity drivendeepfake face swapping detection[C]//In Proceedingsof the IEEE/CVF Conference on Computer Vision andPattern Recognition. 2023: 4490-4499.
[52] X. Zhang, S. Karaman and S. -F. Chang. Detecting andSimulating Artifacts in GAN Fake Images[C]//InProceedings of the IEEE International Workshop onInformation Forensics and Security. 2019: 1-6.
[53] Dzanic T, Shah K, Witherden F. Fourier spectrum discrepanciesin deep network generated images[J]. InProceedings of the Advances in neural information processingsystems. 2020, 33: 3022-3032.
https://doi.org/10.5555/3495724.3495978
[54] Giudice O, Guarnera L, Battiato S. Fighting deepfakesby detecting gan dct anomalies[J]. Journal of Imaging. 2021, 7(8): 128.
https://doi.org/10.3390/jimaging7080128
[55] Qian Y, Yin G, Sheng L, et al. Thinking in frequency: Face forgery detection by mining frequency-aware clues[C]. In Proceedings of the European conference oncomputer vision. 2020: 86-103.
[56] Li J, Xie H, Li J, et al. Frequency-aware discriminativefeature learning supervised by single-center loss forface forgery detection[C]. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 6458-6467
https://doi.org/10.1109/CVPR46437.2021.00639
[57] Rossler A, Cozzolino D, Verdoliva L, et al. Faceforensics++: Learning to detect manipulated facial images[C]. In Proceedings of the IEEE/CVF internationalconference on computer vision. 2019: 1-11.
[58] Li Y, Lyu S. Exposing deepfake videos by detecting facewarping artifacts[J]. arXiv preprint arXiv: 1811. 00656, 2018.
[59] Dong X, Bao J, Chen D, et al. Protecting celebrities fromdeepfake with identity consistency transformer[C]. InProceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition. 2022: 9468-9478.
https://doi.org/10.1109/CVPR52688.2022.00925
[60] Matern F, Riess C, Stamminger M. Exploiting visual artifactsto expose deepfakes and face manipulations[C]. IEEE Winter Applications of Computer Vision Workshops. 2019: 83-92.
https://doi.org/10.1109/WACVW.2019.00020
[61] Li L, Bao J, Zhang T, et al. Face x-ray for more generalface forgery detection[C]. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 5001-5010.
https://doi.org/10.1109/CVPR42600.2020.00505
[62] Güera D, Delp E J. Deepfake video detection using recurrentneural networks[C]. IEEE international conferenceon advanced video and signal based surveillance. 2018: 1-6.
https://doi.org/10.1109/AVSS.2018.8639163
[63] Liy C M, InIctuOculi L. Exposing aicreated fake videosby detecting eye blinking[C]. In Proceedings of theIEEE International workshop on information forensicsand security. 2018: 11-13.
[64] Sabir E, Cheng J, Jaiswal A, et al. Recurrent convolutionalstrategies for face manipulation detection in videos[J]. Interfaces. 2019, 3(1): 80-87.
[65] Amerini I, Caldelli R. Exploiting prediction error inconsistenciesthrough LSTM-based classifiers to detectdeepfake videos[C]. In Proceedings of the 2020 ACMworkshop on information hiding and multimedia security. 2020: 97-102.
https://doi.org/10.1145/3369412.3395070
[66] Masi I, Killekar A, Mascarenhas R M, et al. Twobranchrecurrent network for isolating deepfakes invideos[C]. In Proceedings of the European Conference on Computer Vision. 2020: 667-684.
[67] Yu Y, Ni R, Zhao Y, et al. MSVT: Multiple SpatiotemporalViews Transformer for DeepFake Video Detection[J]. IEEE Transactions on Circuits and Systems forVideo Technology. 2023, 33(9): 4462-4471.
[68] Haliassos A, Vougioukas K, Petridis S, et al. Lips dontlie: A generalisable and robust approach to face forgerydetection[C]. In Proceedings of the IEEE/CVF conferenceon computer vision and pattern recognition. 2021: 5039-5049.
https://doi.org/10.1109/CVPR46437.2021.00500
[69] Haliassos A, Mira R, Petridis S, et al. Leveraging realtalking faces via self-supervision for robust forgery detection[C]. In Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. 2022: 14950-14962.
[70] Yu Y, Liu X, Ni R, et al. PVASS-MDD: Predictive Visual-audio Alignment Self-supervision for MultimodalDeepfake Detection[J]. IEEE Transactions on Circuitsand Systems for Video Technology. 2023.
https://doi.org/10.1109/TCSVT.2023.330989
Deepfake:A Comprehensive Survey of Generation and Detection Methods
(Shenzhen University, Shenzhen 518060, China)
Abstract: Under the impetus of generative models such as Generative Adversarial Networks (GANs) and Diffusion Models, facial deepfake technology has made significant progress. Among these, deep face swapping, as one of the most widespread and impactful research directions in the realm of Deepfake, has captured widespread attention. With its application in diverse areas such as daily entertainment and film production, this technology has catalyzed new innovative possibilities, thereby propelling the advancement of related industries. On the other hand, its rapid evolution poses an increasingly formidable challenge to personal privacy protection, societal stability, and even national security. Against this backdrop, the development of efficient and reliable facial deepfake detection technology has become a critical strategy to counteract this complex threat. Firstly, this article provides an overview of face-swapping methods based on deep learning, categorizing and summarizing them from the perspectives of generation and guidance. Subsequently, the article systematically outlines facial deepfake detection techniques focusing on image spatial and frequency domains. Furthermore, it categorizes and organizes video-oriented facial deepfake detection technology from the perspectives of intra-frame. image forgery features, inter-frame. spatiotemporal feature fusion, and multimodal information fusion. In conclusion, the article summarizes the array of challenges faced by deep face swapping and detection algorithms in addressing technological issues and privacy security. Simultaneously, it delves into the exploration of future directions for development.
Keywords: Deepfake, deep face-swapping, multimedia forensics, deep learning
DOI: 10.48014/ccsr.20240102002
Citation: NIU Yuanchen, LI Yuanman, LI Bin, et al. Deepfake: a comprehensive survey of generation and detection methods[J]. Chinese Computer Sciences Review, 2024, 2(3): 24-37.