深度伪造的 6 种常见手法与检测原理：从换脸到语音克隆

拆解 AI 换脸、唇形同步、语音克隆、屏摄翻拍等 6 类伪造手法的可检测痕迹与典型局限。附检测维度矩阵与公开数据集的精确率/召回率参考区间。

为什么要把"伪造"拆开看

"深度伪造检测"这五个字很容易被当成一个整体能力，但真正在生产环境碰到的样本，并不来自同一类手法。把伪造方式拆开，更容易判断检测系统在你的业务场景到底能不能用。

下面这 6 类，覆盖了我们在内容平台、保险、政务三类客户里观察到的绝大部分实际样本。

1. 全图/全视频生成（Text-to-Image / Text-to-Video）

模型从噪声生成完整画面，没有真实拍摄过程。典型场景：自媒体批量出图、虚假新闻配图、广告素材速产。

可检测痕迹：

频域上特定区域能量分布异常（不同模型有不同"指纹"）
高频细节缺失或过于规则（皮肤纹理、织物纹理）
物理一致性破坏：手指、文字、反射光方向

典型局限：随着 SDXL / Flux / Sora 等代际更新，痕迹收敛得越来越快，模型迭代周期内单一检测器都会被击穿。应对：多模型集成 + 频域 + 语义一致性三路投票。

2. 局部 PS / 局部编辑（Inpainting & Outpainting）

只改一部分——抹掉一个人、换一个数字、拼接两张图。典型场景：电商图片改尺寸、车险定损改损伤面积、聊天截图改金额。

可检测痕迹：

拼接边缘的噪声纹理不连续
不同来源块的 JPEG 压缩特征不匹配
阴影、白平衡的局部不一致

典型局限：经过一次或多次重压缩（截图 → 微信 → 下载）后，边缘特征被磨平。应对：把"是否经过多次压缩"也作为输出维度，给审核员看，而不是只给一个布尔判定。

3. 屏摄/翻拍（Re-photography）

不修图，只是把屏幕或打印件再拍一次。典型场景：保险定损现场二次拍摄、证件翻拍、报销发票翻拍。

可检测痕迹：

摩尔纹（屏摄高频条纹）
偏色与反射点（屏幕/纸张反光）
拍摄角度造成的轻微透视畸变
元数据不匹配（手机型号、拍摄时间与场景矛盾）

典型局限：高分辨率相机配 OLED 屏 + 偏振滤镜的组合可以基本消除摩尔纹；元数据被洗掉之后判定更难。应对：元数据 + 屏幕反光 + 透视一致性三路同时跑，单路置信度不要超过 0.7。

4. AI 换脸（Face Swap）

把 A 的脸替换到 B 的视频上。典型场景：诈骗、勒索、KYC 攻击、视频名誉侵权。

可检测痕迹：

面部边缘与发际线、耳廓的过渡不自然
头部姿态与五官运动的微小相位差
眨眼频率与节奏异常
面部光照与场景光照不匹配

典型局限：高质量训练集 + 后期手工修复后，单帧检测精确率会显著下降。应对：必须做视频级别（时序一致性）而不是只看单帧。

5. 唇形同步（Lip Sync）

脸不换，只让嘴跟着新音频动。典型场景：伪造领导发言、伪造客服对话、AI 二创视频。

可检测痕迹：

唇齿运动与音素的时间错位（人眼难察觉但算法可检）
下颌运动幅度与音量不匹配
嘴角周围的渲染瑕疵

典型局限：训练充分的模型在静态镜头下几乎完美，需要同时分析音频。应对：把语音同步度作为独立输出维度。

6. 语音克隆（Voice Cloning）

3–10 秒样本即可克隆音色。典型场景：电信诈骗、声纹绕过、AI 主播。

可检测痕迹：

频谱细节不连续（声带颤动、气息音缺失）
语调过于平滑或在情绪转折处突变
背景噪声纹理与说话语境不一致

典型局限：当样本量充足、克隆模型新代际发布后，频谱差异肉眼/算法都会变小。应对：声纹一致性 + 频谱伪影 + 语境噪声三路。

检测维度 × 手法矩阵

下表给了一个实操参考，√ 表示该维度对该类手法贡献度高：

检测维度＼手法	全图生成	局部 PS	翻拍屏摄	AI 换脸	唇形同步	语音克隆
频域/纹理伪影	√	√		√		√
拼接边缘		√		√
元数据一致性		√	√
时序一致性				√	√
语音同步度					√
声纹/频谱						√

结论一目了然：没有任何单一维度能覆盖全部手法。实际部署一定是多维度 + 投票或加权融合，宣称"一个模型搞定一切"的检测产品要警惕。

公开数据集上的精确率/召回率参考

下表是明察在 2026 年第一季度跑公开数据集得到的内部实测区间，仅作量级参考。实际业务样本分布与公开数据集差异显著，请以你自己的样本回归为准。

数据集	主要手法	精确率区间	召回率区间
FaceForensics++	AI 换脸	0.91 – 0.96	0.87 – 0.94
DFDC (DeepFake Detection Challenge)	AI 换脸 / 唇形同步	0.78 – 0.85	0.72 – 0.83
WaveFake	语音克隆	0.85 – 0.92	0.81 – 0.89
内部翻拍样本（n=4,200）	屏摄翻拍	0.88 – 0.93	0.82 – 0.90

DFDC 偏低是因为它的样本接近实战，包含多种压缩与对抗扰动——这也是为什么我们劝客户不要拿 FaceForensics 的数字预期产品在实战中的表现。

一个诚实的边界声明

检测模型会被对抗样本击穿，新一代生成模型出现时检测端通常滞后 2–6 个月。这是行业普遍现状，不止明察。

实战建议：

把 AI 检测作为风控/审核流程的辅助决策层，不要让它单独做终态判定
高风险场景（司法、银行、巨额理赔）必须有人工复核与具备资质的鉴定机构兜底
把检测哈希、置信度、模型版本写入审计日志，让后续可追溯

如果你想拿自己的样本跑一组对比测试，明察的算法团队可以提供 API 测试额度——欢迎在博客底部联系。

深度伪造的 6 种常见手法与检测原理：从换脸到语音克隆

为什么要把"伪造"拆开看

1. 全图/全视频生成（Text-to-Image / Text-to-Video）

2. 局部 PS / 局部编辑（Inpainting & Outpainting）

3. 屏摄/翻拍（Re-photography）

4. AI 换脸（Face Swap）

5. 唇形同步（Lip Sync）

6. 语音克隆（Voice Cloning）

检测维度 × 手法矩阵

公开数据集上的精确率/召回率参考

一个诚实的边界声明

作者

最后更新

为什么要把"伪造"拆开看

1. 全图/全视频生成（Text-to-Image / Text-to-Video）

2. 局部 PS / 局部编辑（Inpainting & Outpainting）

3. 屏摄/翻拍（Re-photography）

4. AI 换脸（Face Swap）

5. 唇形同步（Lip Sync）

6. 语音克隆（Voice Cloning）

检测维度 × 手法 矩阵

公开数据集上的精确率/召回率参考

一个诚实的边界声明

作者

最后更新

检测维度 × 手法矩阵