深度伪造的 6 种常见手法与检测原理:从换脸到语音克隆

拆解 AI 换脸、唇形同步、语音克隆、屏摄翻拍等 6 类伪造手法的可检测痕迹与典型局限。附检测维度矩阵与公开数据集的精确率/召回率参考区间。
为什么要把"伪造"拆开看
"深度伪造检测"这五个字很容易被当成一个整体能力,但真正在生产环境碰到的样本,并不来自同一类手法。把伪造方式拆开,更容易判断检测系统在你的业务场景到底能不能用。
下面这 6 类,覆盖了我们在内容平台、保险、政务三类客户里观察到的绝大部分实际样本。
1. 全图/全视频生成(Text-to-Image / Text-to-Video)
模型从噪声生成完整画面,没有真实拍摄过程。典型场景:自媒体批量出图、虚假新闻配图、广告素材速产。
可检测痕迹:
- 频域上特定区域能量分布异常(不同模型有不同"指纹")
- 高频细节缺失或过于规则(皮肤纹理、织物纹理)
- 物理一致性破坏:手指、文字、反射光方向
典型局限:随着 SDXL / Flux / Sora 等代际更新,痕迹收敛得越来越快,模型迭代周期内单一检测器都会被击穿。应对:多模型集成 + 频域 + 语义一致性三路投票。
2. 局部 PS / 局部编辑(Inpainting & Outpainting)
只改一部分——抹掉一个人、换一个数字、拼接两张图。典型场景:电商图片改尺寸、车险定损改损伤面积、聊天截图改金额。
可检测痕迹:
- 拼接边缘的噪声纹理不连续
- 不同来源块的 JPEG 压缩特征不匹配
- 阴影、白平衡的局部不一致
典型局限:经过一次或多次重压缩(截图 → 微信 → 下载)后,边缘特征被磨平。应对:把"是否经过多次压缩"也作为输出维度,给审核员看,而不是只给一个布尔判定。
3. 屏摄/翻拍(Re-photography)
不修图,只是把屏幕或打印件再拍一次。典型场景:保险定损现场二次拍摄、证件翻拍、报销发票翻拍。
可检测痕迹:
- 摩尔纹(屏摄高频条纹)
- 偏色与反射点(屏幕/纸张反光)
- 拍摄角度造成的轻微透视畸变
- 元数据不匹配(手机型号、拍摄时间与场景矛盾)
典型局限:高分辨率相机配 OLED 屏 + 偏振滤镜的组合可以基本消除摩尔纹;元数据被洗掉之后判定更难。应对:元数据 + 屏幕反光 + 透视一致性三路同时跑,单路置信度不要超过 0.7。
4. AI 换脸(Face Swap)
把 A 的脸替换到 B 的视频上。典型场景:诈骗、勒索、KYC 攻击、视频名誉侵权。
可检测痕迹:
- 面部边缘与发际线、耳廓的过渡不自然
- 头部姿态与五官运动的微小相位差
- 眨眼频率与节奏异常
- 面部光照与场景光照不匹配
典型局限:高质量训练集 + 后期手工修复后,单帧检测精确率会显著下降。应对:必须做视频级别(时序一致性)而不是只看单帧。
5. 唇形同步(Lip Sync)
脸不换,只让嘴跟着新音频动。典型场景:伪造领导发言、伪造客服对话、AI 二创视频。
可检测痕迹:
- 唇齿运动与音素的时间错位(人眼难察觉但算法可检)
- 下颌运动幅度与音量不匹配
- 嘴角周围的渲染瑕疵
典型局限:训练充分的模型在静态镜头下几乎完美,需要同时分析音频。应对:把语音同步度作为独立输出维度。
6. 语音克隆(Voice Cloning)
3–10 秒样本即可克隆音色。典型场景:电信诈骗、声纹绕过、AI 主播。
可检测痕迹:
- 频谱细节不连续(声带颤动、气息音缺失)
- 语调过于平滑或在情绪转折处突变
- 背景噪声纹理与说话语境不一致
典型局限:当样本量充足、克隆模型新代际发布后,频谱差异肉眼/算法都会变小。应对:声纹一致性 + 频谱伪影 + 语境噪声三路。
检测维度 × 手法 矩阵
下表给了一个实操参考,√ 表示该维度对该类手法贡献度高:
| 检测维度 \ 手法 | 全图生成 | 局部 PS | 翻拍屏摄 | AI 换脸 | 唇形同步 | 语音克隆 |
|---|---|---|---|---|---|---|
| 频域/纹理伪影 | √ | √ | √ | √ | ||
| 拼接边缘 | √ | √ | ||||
| 元数据一致性 | √ | √ | ||||
| 时序一致性 | √ | √ | ||||
| 语音同步度 | √ | |||||
| 声纹/频谱 | √ |
结论一目了然:没有任何单一维度能覆盖全部手法。实际部署一定是多维度 + 投票或加权融合,宣称"一个模型搞定一切"的检测产品要警惕。
公开数据集上的精确率/召回率参考
下表是明察在 2026 年第一季度跑公开数据集得到的内部实测区间,仅作量级参考。实际业务样本分布与公开数据集差异显著,请以你自己的样本回归为准。
| 数据集 | 主要手法 | 精确率区间 | 召回率区间 |
|---|---|---|---|
| FaceForensics++ | AI 换脸 | 0.91 – 0.96 | 0.87 – 0.94 |
| DFDC (DeepFake Detection Challenge) | AI 换脸 / 唇形同步 | 0.78 – 0.85 | 0.72 – 0.83 |
| WaveFake | 语音克隆 | 0.85 – 0.92 | 0.81 – 0.89 |
| 内部翻拍样本(n=4,200) | 屏摄翻拍 | 0.88 – 0.93 | 0.82 – 0.90 |
DFDC 偏低是因为它的样本接近实战,包含多种压缩与对抗扰动——这也是为什么我们劝客户不要拿 FaceForensics 的数字预期产品在实战中的表现。
一个诚实的边界声明
检测模型会被对抗样本击穿,新一代生成模型出现时检测端通常滞后 2–6 个月。这是行业普遍现状,不止明察。
实战建议:
- 把 AI 检测作为风控/审核流程的辅助决策层,不要让它单独做终态判定
- 高风险场景(司法、银行、巨额理赔)必须有人工复核与具备资质的鉴定机构兜底
- 把检测哈希、置信度、模型版本写入审计日志,让后续可追溯
如果你想拿自己的样本跑一组对比测试,明察的算法团队可以提供 API 测试额度——欢迎在博客底部联系。