专利 一种基于图像补全的唇形同步人脸伪造生成方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210543484.9 (22)申请日 2022.05.19 (65)同一申请的已公布的文献号申请公布号 CN 114663962 A (43)申请公布日 2022.06.24 (73)专利权人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号 (72)发明人纪守领　包晗　王琴应　张旭鸿　王总辉　杨星　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师郑海峰 (51)Int.Cl. G06V 40/16(2022.01)G06V 20/40(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 113762138 A,2021.12.07 CN 113793408 A,2021.12.14 审查员宋海荣 (54)发明名称一种基于图像补全的唇形同步人脸伪造生成方法及系统 (57)摘要本发明公开了一种基于图像补全的唇形同步人脸伪造生成方法及系统，属于人工智能人脸生成领域。包括：获取人脸视频及对应的音频，将视频帧和音频帧对齐，提取多帧的人脸图像、头部姿态参数和梅尔频谱作为训练样本；对人脸图像进行预处理，生成擦除嘴部后的面部图像；对人脸伪造生成模型进行训练，利用训练好的人脸伪造生成模型，生成针对特定音频下嘴部动作的伪造人脸图像。本发明在面部生成时采用了图像补全的技术，在只修改嘴部的前提下生成因人物表达内容不一致造成的嘴部差异。相较于传统的人脸伪造生成方法，本发明提供了唇形同步功能，在视频和音频结合上进行伪造生成，且不修改面部或背景的其余位置，能够达到更逼真的伪造效果。权利要求书2页说明书7页附图7页 CN 114663962 B 2022.09.16 CN 114663962 B 1.一种基于图像补全的唇形同步人脸伪造生成方法，其特征在于，包括以下步骤：步骤1：获取人脸视频及对应的音频，将视频帧和音频帧对齐，提取多帧的人脸图像、头部姿态参数和梅尔频谱作为训练样本；对人脸图像进行预处理，生成擦除嘴部后的面部图像；步骤2：利用训练样本对人脸伪造生成模型进行训练，所述的人脸伪造生成模型包括音频特征提取模块、唇形同步模块、嘴部生成模块以及融合模块；所述的音频特征提取模块用于对步骤1得到的梅尔频谱进行特征提取，生成最终音频特征；所述的唇形同步模块用于根据最终音频特征生成多级唇形图像特征，并根据最后一级唇形图像特征生成唇形图像，计算生成的唇形图像与人脸图像样本中的唇形图像之间的唇形损失，所述的唇形损失包括均方误差损失和对比损失；所述的嘴部生成模块用于根据多级唇形图像特征和头部姿态参数生成多级嘴部图像特征，并根据最后一级嘴部图像特征生成嘴部图像，计算生成的嘴部图像与人脸图像样本中的嘴部图像之间的嘴部损失，所述的嘴部损失使用均方误差损失；所述的融合模块用于将多级嘴部图像特征融合到步骤1中所述的擦除嘴部后的面部图像中，计算融合损失，所述的融合损失使用P CONV网络对应的融合损失；根据唇形损失、嘴部损失、融合损失的加权损失之和更新人脸伪造生成模型的参数；步骤3：利用训练好的人脸伪造生成模型，生成针对特定音频下嘴部动作的伪造人脸图像。 2.根据权利要求1所述的基于图像补全的唇形同步人脸伪造生成方法，其特征在于，所述的步骤1包括：获取真实视频，所述视频中的每一帧均包含完整的人脸图像，且包含人物说话的音频；对视频中的所有帧提取人脸图像集合，截取人脸图像中的唇形部分作为样本唇形图像，并获取每一帧人脸图像相对于相机的头部姿态参数；构建嘴部擦除网络，从人脸图像集合中随机取出部分人脸图像并标记嘴部位置，对嘴部擦除网络进行训练，利用训练后的嘴部擦除网络对未标记嘴部位置的人脸图像进行嘴部位置识别并擦除，保留面部图像；将时域的音频转化为频域的梅尔频谱，频域采样率与视频帧采样率一致。 3.根据权利要求2所述的基于图像补全的唇形同步人脸伪造生成方法，其特征在于，所述的嘴部擦除网络采用Unet网络，用于生成表示嘴部位置的嘴部掩膜，根据嘴部掩膜将人脸图像中的嘴部位置擦除。 4.根据权利要求1所述的基于图像补全的唇形同步人脸伪造生成方法，其特征在于，所述的音频特征提取模块由a个音频下采样层和一个LSTM层构成，首先通过若干音频下采样层对多帧梅尔频谱依次进行降维处理，生成多级音频特征，再由LSTM层对多帧梅尔频谱的最后一级音频特征进行融合，生成最终音频特征。 5.根据权利要求1所述的基于图像补全的唇形同步人脸伪造生成方法，其特征在于，所述的唇形同步模块由b个串联的唇形上采样层组成， b≥3；将音频特征提取模块得到的最终音频特征作为输入，利用多个唇形上采样层先后生成多级唇形图像特征，将最后一级唇形图像特征转化为唇形图像。 6.根据权利要求5所述的基于图像补全的唇形同步人脸伪造生成方法，其特征在于，所权　利　要　求　书 1/2 页 2 CN 114663962 B 2述的嘴部生成模块由c个串联的嘴部上采样层组成， c≥3；将唇形同步模块生成的第一级唇形图像特征和头部参数拼接后作为第一个嘴部上采样层的输入，将第一个嘴部上采样层输出的第一级嘴部图像特征与第二级唇形图像特征拼接后作为第二个嘴部上采样层的输入，将第二个嘴部上采样层输出的第二级嘴部图像特征与第三级唇形图像特征拼接后作为第三个嘴部上采样层的输入，将第三个嘴部上采样层输出的第三级嘴部图像特征作为下一个嘴部上采样层的输入，直至生成最后一级嘴部图像特征并转化为嘴部图像。 7.根据权利要求1所述的基于图像补全的唇形同步人脸伪造生成方法，其特征在于，所述的融合模块采用Unet网络，将擦除嘴部后的面部图像作为Unet网络中编码器的输入，将编码器的各层输出与嘴部生成模块生成的多级嘴部图像特征融合到解码器的各层输入中，生成融合后的完整人脸图像。 8.根据权利要求1所述的基于图像补全的唇形同步人脸伪造生成方法，其特征在于，所述的步骤3具体为：针对给定音频的梅尔频谱，根据步骤1的方法获取目标人物擦除嘴部后的多帧面部图像和对应的头部姿态参数，将频域的梅尔频谱和多帧面部图像在时间上对齐；利用训练好的人脸伪造生成模型，首先由音频特征提取模块对给定音频的梅尔频谱进行特征提取，生成最终音频特征，之后由唇形同步模块根据最终音频特征生成多级唇形图像特征，再由嘴部生成模块用于根据多级唇形图像特征和头部姿态参数生成多级嘴部图像特征，最后将多级嘴部图像特征融合到目标人物擦除嘴部后的多帧面部图像中，生成针对特定音频下嘴部动作的伪造人脸图像。 9.一种基于图像补全的唇形同步人脸伪造生成系统，其特征在于，用于实现权利要求1 所述的基于图像补全的唇形同步人脸伪造生成方法，所述的唇形同步人脸伪造生成系统包括：数据获取模块，其用于获取人脸视频及对应的音频，将视频帧和音频帧对齐，提取多帧的人脸图像、头部姿态参数和梅尔频谱作为训练样本；对人脸图像进行预处理，生成擦除嘴部后的面部图像；人脸伪造生成模型及其训练模块，其用于利用训练样本对人脸伪造生成模型进行训练，所述的人脸伪造生成模型包括音频特征提取模块、唇形同步模块、嘴部生成模块以及融合模块；所述的音频特征提取模块用于对梅尔频谱进行特征提取，生成最终音频特征；所述的唇形同步模块用于根据最终音频特征生成多级唇形图像特征，并根据最后一级唇形图像特征生成唇形图像，计算生成的唇形图像与人脸图像样本中的唇形图像之间的唇形损失，所述的唇形损失包括均方误差损失和对比损失；所述的嘴部生成模块用于根据多级唇形图像特征和头部姿态参数生成多级嘴部图像特征，并根据最后一级嘴部图像特征生成嘴部图像，计算生成的嘴部图像与人脸图像样本中的嘴部图像之间的嘴部损失，所述的嘴部损失使用均方误差损失；所述的融合模块用于将多级嘴部图像特征融合到擦除嘴部后的面部图像中，计算融合损失，所述的融合损失使用PCONV网络对应的融合损失；根据唇形损失、嘴部损失、融合损失的加权损失之和更新人脸伪造生成模型的参数；伪造人脸图像生成模块，其用于调用训练好的人脸伪造生成模型，生成针对特定音频下嘴部动作的伪造人脸图像。权　利　要　求　书 2/2 页 3 CN 114663962 B 3

专利 一种基于图像补全的唇形同步人脸伪造生成方法及系统

专利一种基于图像补全的唇形同步人脸伪造生成方法及系统