(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210543484.9
(22)申请日 2022.05.19
(65)同一申请的已公布的文献号
申请公布号 CN 114663962 A
(43)申请公布日 2022.06.24
(73)专利权人 浙江大学
地址 310058 浙江省杭州市西湖区余杭塘
路866号
(72)发明人 纪守领 包晗 王琴应 张旭鸿
王总辉 杨星
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 郑海峰
(51)Int.Cl.
G06V 40/16(2022.01)G06V 20/40(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 113762138 A,2021.12.07
CN 113793408 A,2021.12.14
审查员 宋海荣
(54)发明名称
一种基于图像补全的唇形同步人脸伪造生
成方法及系统
(57)摘要
本发明公开了一种基于图像补全的唇形同
步人脸伪造生成方法及系统, 属于人工智能人脸
生成领域。 包括: 获取人脸视频及对应的音频, 将
视频帧和音频帧对齐, 提取多帧的人脸图像、 头
部姿态参数和梅尔频谱作为训练样 本; 对人脸图
像进行预处理, 生成擦除嘴部后的面部图像; 对
人脸伪造生成模 型进行训练, 利用训练好的人脸
伪造生成模型, 生成针对特定音频下嘴部动作的
伪造人脸图像。 本发明在面部生 成时采用了图像
补全的技术, 在只修改嘴部的前提下生成因人物
表达内容不一致造成的嘴部差异。 相较于传统的
人脸伪造生成方法, 本发明提供了唇形同步功
能, 在视频和音频结合上进行伪造生成, 且不修
改面部或背景的其余位置, 能够达到更逼真的伪
造效果。
权利要求书2页 说明书7页 附图7页
CN 114663962 B
2022.09.16
CN 114663962 B
1.一种基于图像补全的唇 形同步人脸伪造生成方法, 其特 征在于, 包括以下步骤:
步骤1: 获取人脸视频及对应的音频, 将视频帧和音频帧对齐, 提取多帧的人脸图像、 头
部姿态参数和 梅尔频谱作为训练样本; 对人脸图像进行预处理, 生成擦除嘴部后的面部图
像;
步骤2: 利用训练样本对人脸伪造生成模型进行训练, 所述的人脸伪 造生成模型包括音
频特征提取模块、 唇 形同步模块、 嘴部生成模块以及融合模块;
所述的音频特征提取模块用于对步骤1得到的梅尔频谱进行特征提取, 生成最终音频
特征; 所述的唇形同步模块用于根据最终音频特征生成多级唇形图像特征, 并根据最后一
级唇形图像特征生成唇形图像, 计算生成的唇形图像与人脸图像样本中的唇形图像之 间的
唇形损失, 所述的唇形损失包括均方误差损失和对比损失; 所述的嘴部生成模块用于根据
多级唇形图像特征和头部姿态参数生成多级嘴部图像特征, 并根据最后一级嘴部图像特征
生成嘴部图像, 计算生成的嘴部图像与人脸图像样本中的嘴部图像之间的嘴部损失, 所述
的嘴部损失使用均方误差损失; 所述的融合模块用于将多级嘴部图像特征融合到步骤1中
所述的擦除嘴部后的面部图像中, 计算融合损失, 所述的融合损失使用P CONV网络对应的融
合损失;
根据唇形损失、 嘴部损失、 融合损失的加权损失之和更新人脸伪造生成模型的参数;
步骤3: 利用训练好的人脸伪造生成模型, 生成针对特定音频下嘴部动作的伪 造人脸图
像。
2.根据权利要求1所述的基于图像补全的唇形同步人脸伪 造生成方法, 其特征在于, 所
述的步骤1包括:
获取真实视频, 所述视频中的每一帧均包 含完整的人脸图像, 且 包含人物说话的音频;
对视频中的所有帧提取人脸图像集合, 截取人脸图像中的唇形部分作为样本唇形图
像, 并获取每一帧人脸图像相对于相机的头 部姿态参数;
构建嘴部擦 除网络, 从人脸图像集合中随机取出部分人脸图像并标记嘴部位置, 对嘴
部擦除网络进 行训练, 利用训练后的嘴部擦除网络对未标记嘴部位置的人脸图像进行嘴部
位置识别并擦除, 保留面部图像;
将时域的音频转 化为频域的梅尔频谱, 频域采样率与视频帧采样率 一致。
3.根据权利要求2所述的基于图像补全的唇形同步人脸伪 造生成方法, 其特征在于, 所
述的嘴部擦除网络采用Unet网络, 用于生成表示 嘴部位置的嘴部掩膜, 根据嘴部掩膜将人
脸图像中的嘴部位置擦除。
4.根据权利要求1所述的基于图像补全的唇形同步人脸伪 造生成方法, 其特征在于, 所
述的音频特征提取模块由a个音频下采样层和一个LSTM层构成, 首先通过若干音频下采样
层对多帧梅尔频谱依次进行降维处理, 生成多级音频特征, 再由LSTM层对多帧梅尔频谱的
最后一级 音频特征进行融合, 生成最终音频 特征。
5.根据权利要求1所述的基于图像补全的唇形同步人脸伪 造生成方法, 其特征在于, 所
述的唇形同步模块由b个串联的唇形上采样层组成, b≥3; 将音 频特征提取模块得到的最 终
音频特征作为输入, 利用多个唇形上采样层先后生成多级唇形图像特征, 将最后一级唇形
图像特征转化为唇形图像。
6.根据权利要求5所述的基于图像补全的唇形同步人脸伪 造生成方法, 其特征在于, 所权 利 要 求 书 1/2 页
2
CN 114663962 B
2述的嘴部生成模块由c个串联的嘴部上采样层组成, c≥3; 将唇形同步模块生成的第一级 唇
形图像特征和头部参数拼接后作为第一个嘴部上采样层的输入, 将第一个嘴部上采样层输
出的第一级嘴部图像特征与第二级唇形图像特征拼接后作为第二个嘴部上采样层的输入,
将第二个嘴部上采样层输出 的第二级嘴部图像特征与第三级唇形图像特征拼接后作为第
三个嘴部上采样层的输入, 将第三个嘴部上采样层输出的第三级嘴部图像特征作为下一个
嘴部上采样层的输入, 直至生成最后一级嘴部图像特 征并转化为嘴部图像。
7.根据权利要求1所述的基于图像补全的唇形同步人脸伪 造生成方法, 其特征在于, 所
述的融合模块采用Unet网络, 将擦除嘴部后的面部图像作为Unet网络中编码器的输入, 将
编码器的各层输出与嘴部生成模块生成的多级嘴部图像特征融合到解码 器的各层输入中,
生成融合后的完整人脸图像。
8.根据权利要求1所述的基于图像补全的唇形同步人脸伪 造生成方法, 其特征在于, 所
述的步骤3具体为: 针对给定音频的梅尔频谱, 根据步骤1的方法获取目标人物擦除嘴部后
的多帧面部图像和对应的头部姿态参数, 将频域的梅尔频谱和多帧面部图像在时间上对
齐;
利用训练好的人脸伪 造生成模型, 首先由音频特征提取模块对给定音频的梅尔频谱进
行特征提取, 生成最终音频特征, 之后由唇形同步模块根据最终音频特征生成多级唇形图
像特征, 再由嘴部生成模块用于根据多级 唇形图像特征和头部姿态参数生成多级嘴部图像
特征, 最后将多级嘴部图像特征融合到目标人物擦除嘴部后的多帧面部图像中, 生成针对
特定音频 下嘴部动作的伪造人脸图像。
9.一种基于图像补全的唇形同步人脸伪 造生成系统, 其特征在于, 用于实现权利要求1
所述的基于图像补 全的唇形同步人脸伪造生成方法, 所述的唇形同步人脸伪造生成系统包
括:
数据获取模块, 其用于获取人脸视频及对应的音频, 将视频帧和音频帧对齐, 提取多帧
的人脸图像、 头部姿态参数和梅尔频谱作为训练样本; 对人脸图像进 行预处理, 生成擦除嘴
部后的面部图像;
人脸伪造生成模型及其训练模块, 其用于利用训练样本对人脸伪造生成模型进行训
练, 所述的人脸伪造生成模 型包括音频特征提取模块、 唇形同步模块、 嘴部生成模块以及融
合模块;
所述的音频特征提取模块用于对梅尔频谱进行特征提取, 生成最终音频特征; 所述的
唇形同步模块用于根据最 终音频特征生成多级唇形图像特征, 并根据最后一级唇形图像特
征生成唇形图像, 计算生成的唇形图像与人脸图像样本中的唇形图像之间的唇形损失, 所
述的唇形损失包括均方误差损失和对比损失; 所述的嘴部生成模块用于根据多级 唇形图像
特征和头部姿态参数生成多级嘴部图像特征, 并根据最后一级嘴部图像特征生成嘴部图
像, 计算生成的嘴部图像与人脸图像样本中的嘴部图像之间的嘴部损失, 所述的嘴部损失
使用均方误差损失; 所述的融合模块用于将多级嘴部图像特征融合到擦除嘴部后的面部图
像中, 计算融合损失, 所述的融合损失使用PCONV网络对应的融合损失;
根据唇形损失、 嘴部损失、 融合损失的加权损失之和更新人脸伪造生成模型的参数;
伪造人脸图像生成模块, 其用于调用训练好的人脸伪造生成模型, 生成针对特定音频
下嘴部动作的伪造人脸图像。权 利 要 求 书 2/2 页
3
CN 114663962 B
3
专利 一种基于图像补全的唇形同步人脸伪造生成方法及系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:44:45上传分享