深度伪造的 6 种常见手法与检测原理:从换脸到语音克隆

5 分钟阅读
深度伪造的 6 种常见手法与检测原理:从换脸到语音克隆

拆解 AI 换脸、唇形同步、语音克隆、屏摄翻拍等 6 类伪造手法的可检测痕迹与典型局限。附检测维度矩阵与公开数据集的精确率/召回率参考区间。

为什么要把"伪造"拆开看

"深度伪造检测"这五个字很容易被当成一个整体能力,但真正在生产环境碰到的样本,并不来自同一类手法。把伪造方式拆开,更容易判断检测系统在你的业务场景到底能不能用。

下面这 6 类,覆盖了我们在内容平台、保险、政务三类客户里观察到的绝大部分实际样本。

1. 全图/全视频生成(Text-to-Image / Text-to-Video)

模型从噪声生成完整画面,没有真实拍摄过程。典型场景:自媒体批量出图、虚假新闻配图、广告素材速产。

可检测痕迹

  • 频域上特定区域能量分布异常(不同模型有不同"指纹")
  • 高频细节缺失或过于规则(皮肤纹理、织物纹理)
  • 物理一致性破坏:手指、文字、反射光方向

典型局限:随着 SDXL / Flux / Sora 等代际更新,痕迹收敛得越来越快,模型迭代周期内单一检测器都会被击穿。应对:多模型集成 + 频域 + 语义一致性三路投票。

2. 局部 PS / 局部编辑(Inpainting & Outpainting)

只改一部分——抹掉一个人、换一个数字、拼接两张图。典型场景:电商图片改尺寸、车险定损改损伤面积、聊天截图改金额。

可检测痕迹

  • 拼接边缘的噪声纹理不连续
  • 不同来源块的 JPEG 压缩特征不匹配
  • 阴影、白平衡的局部不一致

典型局限:经过一次或多次重压缩(截图 → 微信 → 下载)后,边缘特征被磨平。应对:把"是否经过多次压缩"也作为输出维度,给审核员看,而不是只给一个布尔判定。

3. 屏摄/翻拍(Re-photography)

不修图,只是把屏幕或打印件再拍一次。典型场景:保险定损现场二次拍摄、证件翻拍、报销发票翻拍。

可检测痕迹

  • 摩尔纹(屏摄高频条纹)
  • 偏色与反射点(屏幕/纸张反光)
  • 拍摄角度造成的轻微透视畸变
  • 元数据不匹配(手机型号、拍摄时间与场景矛盾)

典型局限:高分辨率相机配 OLED 屏 + 偏振滤镜的组合可以基本消除摩尔纹;元数据被洗掉之后判定更难。应对:元数据 + 屏幕反光 + 透视一致性三路同时跑,单路置信度不要超过 0.7。

4. AI 换脸(Face Swap)

把 A 的脸替换到 B 的视频上。典型场景:诈骗、勒索、KYC 攻击、视频名誉侵权。

可检测痕迹

  • 面部边缘与发际线、耳廓的过渡不自然
  • 头部姿态与五官运动的微小相位差
  • 眨眼频率与节奏异常
  • 面部光照与场景光照不匹配

典型局限:高质量训练集 + 后期手工修复后,单帧检测精确率会显著下降。应对:必须做视频级别(时序一致性)而不是只看单帧。

5. 唇形同步(Lip Sync)

脸不换,只让嘴跟着新音频动。典型场景:伪造领导发言、伪造客服对话、AI 二创视频。

可检测痕迹

  • 唇齿运动与音素的时间错位(人眼难察觉但算法可检)
  • 下颌运动幅度与音量不匹配
  • 嘴角周围的渲染瑕疵

典型局限:训练充分的模型在静态镜头下几乎完美,需要同时分析音频。应对:把语音同步度作为独立输出维度。

6. 语音克隆(Voice Cloning)

3–10 秒样本即可克隆音色。典型场景:电信诈骗、声纹绕过、AI 主播。

可检测痕迹

  • 频谱细节不连续(声带颤动、气息音缺失)
  • 语调过于平滑或在情绪转折处突变
  • 背景噪声纹理与说话语境不一致

典型局限:当样本量充足、克隆模型新代际发布后,频谱差异肉眼/算法都会变小。应对:声纹一致性 + 频谱伪影 + 语境噪声三路。

检测维度 × 手法 矩阵

下表给了一个实操参考, 表示该维度对该类手法贡献度高:

检测维度 \ 手法全图生成局部 PS翻拍屏摄AI 换脸唇形同步语音克隆
频域/纹理伪影
拼接边缘
元数据一致性
时序一致性
语音同步度
声纹/频谱

结论一目了然:没有任何单一维度能覆盖全部手法。实际部署一定是多维度 + 投票或加权融合,宣称"一个模型搞定一切"的检测产品要警惕。

公开数据集上的精确率/召回率参考

下表是明察在 2026 年第一季度跑公开数据集得到的内部实测区间,仅作量级参考。实际业务样本分布与公开数据集差异显著,请以你自己的样本回归为准。

数据集主要手法精确率区间召回率区间
FaceForensics++AI 换脸0.91 – 0.960.87 – 0.94
DFDC (DeepFake Detection Challenge)AI 换脸 / 唇形同步0.78 – 0.850.72 – 0.83
WaveFake语音克隆0.85 – 0.920.81 – 0.89
内部翻拍样本(n=4,200)屏摄翻拍0.88 – 0.930.82 – 0.90

DFDC 偏低是因为它的样本接近实战,包含多种压缩与对抗扰动——这也是为什么我们劝客户不要拿 FaceForensics 的数字预期产品在实战中的表现

一个诚实的边界声明

检测模型会被对抗样本击穿,新一代生成模型出现时检测端通常滞后 2–6 个月。这是行业普遍现状,不止明察。

实战建议:

  1. 把 AI 检测作为风控/审核流程的辅助决策层,不要让它单独做终态判定
  2. 高风险场景(司法、银行、巨额理赔)必须有人工复核与具备资质的鉴定机构兜底
  3. 把检测哈希、置信度、模型版本写入审计日志,让后续可追溯

如果你想拿自己的样本跑一组对比测试,明察的算法团队可以提供 API 测试额度——欢迎在博客底部联系。