安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210373752.7 (22)申请日 2022.04.07 (71)申请人 中国科学院计算 技术研究所 地址 100190 北京市海淀区中关村科 学院 南路6号 (72)发明人 纪昱锋 张杰 山世光  (74)专利代理 机构 北京泛华伟业知识产权代理 有限公司 1 1280 专利代理师 王勇 苏晓丽 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/16(2022.01) G06T 7/269(2017.01) G06T 5/00(2006.01) G06V 10/764(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 视频换脸方法、 装置及存 储介质 (57)摘要 本申请提供了视频换脸模型的训练方法及 视频换脸方法。 首先在图像数据集上利用判别器 对视频换脸模型中外观编码器和生成器进行对 抗式训练直到判别器无法判断生成器的输出结 果的真实性; 接着视频数据集上通过光流场判别 器继续对该视频换脸模型中外观编码器和生成 器进行对抗式训练直到光流场判别器无法判断 来自生成器的相邻两帧图像之间的光流场的真 实性。 这样, 通过采用这种面向视频的光流场判 别器在视频数据集上进一步训练换脸模型, 加速 了模型收敛, 使得在少量人脸图像样本集上训练 的生成器能生成逼真和更加稳定的图像, 减少了 合成后视频中的抖动、 伪影和闪烁等现象, 同时 也摆脱了对大量高质量样本数据的依赖 。 权利要求书2页 说明书9页 附图3页 CN 114943912 A 2022.08.26 CN 114943912 A 1.一种用于训练换脸模型的方法, 其中所述换脸模型包括外观编码器、 生成器、 判别 器、 光流场编 码器、 光流场判别器以及预先训练好的人脸识别器; 其中光流场编 码器用于提 取输入的两帧图像之间的光流场; 所述光流场判别器用于判断从光流场编 码器接收的光流 场的真实性; 所述方法包括: 步骤S1)基于视频数据集预先训练光流场编码器, 所述光流场编码器以一个人的视频 序列中相邻两帧图像作为输入, 其输出这相邻两帧图像之间的光流场, 所述视频数据集包 括对多个人分别采集的视频序列; 步骤S2)从包含多个人脸图像的图像数据集提取的多个样本对来训练外观编码器、 生 成器和判别器; 其中每个样本对由源人脸图像和目标人脸图像构成, 所述生成器用于根据 经由人脸识别器从源人脸图像中提取的身份特征和经由外观编码器从目标人脸图像中提 取的外观特征来生成换脸图像, 所述判别器用于判断所述生成器所生成的换脸图像的真实 性; 步骤S3)从视频数据集中两个不同人的视频序列分别提取相邻两帧图像, 由此构成两 个相邻的样本对, 并通过 所述生成器对于这两个相邻的样本对生成两个相邻的换脸图像; 步骤S4)利用该光流场编码器提取来自生成器的两个相邻的换脸图像之间的光流场, 并利用光流场判别器判断所述光流场的真实性, 根据光流场判别器的判断结果调整外观编 码器和生成器的参数; 重复上述步骤S3)和步骤S4, 直到光流场判别器无法判断来自生成器的两个相邻的换 脸图像之间的光 流场的真实性 为止。 2.根据权利要求1所述的方法, 其中所述生成器采用由若干卷积层、 归一化层、 全连接 层和上采样层构成的网络结构。 3.根据权利要求1所述的方法, 还包括在生成器中对所接收的来自源人脸图像的身份 特征和来自目标人脸图像的外观特征进行融合; 以及在生成器的一个或多个层处将其中间 特征分别与身份特 征进行融合。 4.根据权利要求1所述的方法, 还包括将所述外观编码器中间层级的特征和身份特征 进行融合, 并将融合后的特征进一步提供至生成器 以与生成器的中间层级的特征进行融 合。 5.一种视频 换脸方法, 包括: 将源人脸图像输入到人脸识别器中提取身份特 征; 将目标人脸图像输入到 外观编码器中提取外观特 征; 将所述身份特 征和所述外观特 征输入至生成器中以生成相应的换脸图像; 其中所述人脸识别器、 外观编码器和生成器来自于根据权利要求1 ‑4中任一项所述的 方法构建的换脸模型。 6.根据权利要求5所述的方法, 还 包括: 利用预先训练 的防伪模型为所述换脸图像生成防伪噪声; 将该防伪噪声叠加在所述换 脸图像中。 7.根据权利要求6所述的方法, 还 包括: 利用预先训练 的防伪模型识别待检测的人脸图像中是否包含相应的防伪噪声, 以验证 该人脸图像是否是利用所述方法生成的换脸图像。权 利 要 求 书 1/2 页 2 CN 114943912 A 28.根据权利要求5或6所述的方法, 其中所述防伪模型包括可训练的噪声特征图、 噪声 判别器和预先训练好的特征对齐网络; 其中噪声判别器用于判断输入的图像是否有 噪声; 所述特征对齐网络用于使加噪声的图像与未加噪声的原图像尽可能相同; 所述防伪模型是 基于所述图像数据集通过噪声判别器和特征对齐网络进行对抗学习训练得到的, 将收敛后 的噪声特征图与输入的图像叠加后得到的图像通过肉 眼无法分辨, 仅通过噪声判别器才能 进行区分。 9.一种视频换脸装置, 包括处理器和存储器, 其中存储器用于存储可执行指令; 所述处 理器被配置为经由执行所述可执行指令来执行权利要求5 ‑8中任一项所述的视频换脸方 法。 10.一种计算机存储介质, 其上存储有计算机程序, 所述程序被执行时实现权利要求1 ‑ 8中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114943912 A 3

.PDF文档 专利 视频换脸方法、装置及存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频换脸方法、装置及存储介质 第 1 页 专利 视频换脸方法、装置及存储介质 第 2 页 专利 视频换脸方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:40:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。