安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211256426.4 (22)申请日 2022.10.14 (71)申请人 厦门靠谱云股份有限公司 地址 361000 福建省厦门市湖里区火炬高 新区软件园创新大厦C区3F-A317 (72)发明人 肖永强 郑义恒 唐尉棉  (74)专利代理 机构 福州元创专利商标代理有限 公司 35100 专利代理师 陈明鑫 蔡学俊 (51)Int.Cl. G06T 11/00(2006.01) G06T 3/00(2006.01) G06V 40/16(2022.01) G10L 13/08(2013.01) (54)发明名称 一种快速将真人克隆为二维虚拟数字人的 方法 (57)摘要 本发明涉及一种快速将真人克隆为二维虚 拟数字人的方法, 提供一种在二维虚拟数字人创 建场景下快速克隆出真人高保真的方案, 该场景 是以录制二维真人视频为主要素材, 实现新的音 频驱动重组原嘴型序列的一种方法。 包括: 人体 分割、 人脸关键点提取、 脸部嘴型替换、 语音合 成、 音频对齐计算、 轮廓相似度计算。 在具体实施 过程中, 模块间协 同工作, 最终可 以自动化创建 二维数字 人的流程。 由于创建数字人需要以低成 本有效方式进行, 在真人素材采集上使用手机清 晰简便录制尚可。 另外, 考虑到如何缓解嘴型替 换后过渡差异性问题, 也就是在保障嘴型重组之 后的序列流畅与自然情况下, 本发 明引入原嘴型 与替换嘴型之间的轮廓相似度计算作为约束性 选择。 权利要求书2页 说明书4页 附图1页 CN 115511994 A 2022.12.23 CN 115511994 A 1.一种快速将真人 克隆为二维虚拟数字人的方法, 其特 征在于, 包括: S1、 人体分割: 将原视频 素材中的人分离出来, 备用于二次加工 美化虚拟数字人; S2、 人脸关键点 提取: 基于人体分割, 提取 人体脸部关键点; S3、 脸部嘴型替换: 将新音频对齐嘴型的帧序列进行旋转、 缩放和平移以适合原虚拟数字人视频时间点, 之后调整图像中的色彩平衡以匹配原图像, 并将图像中的特 征融合到原图像之上; S4、 语音合成: 实现文本 到语音tts转换, 得到新的音频 数据, 用于驱动虚拟数字人嘴型序列重组; S5、 音频对齐 计算: 预先设计将原虚拟数字人的音频按照汉语拼音声母表对齐, 类似的, 新音频也同样与 汉语拼音表对齐, 之后根据时间线即可对应到原虚拟数字人 的嘴型; 一个发音可重复采集 多个嘴型 结果, 以此来完成嘴型序列的推荐; S6、 轮廓相似度计算: 最小化原 虚拟数字人嘴型序列 与将要替换的嘴型序列之间嘴型的轮廓相似度。 2.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法, 其特征在于, 所述人体分割采用RVM循环神经网络来处 理具有时间记 忆的视频 人体分割技 术。 3.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法, 其特征在于, 所述人脸关键点 提取采用i nsightface提取脸部1 11个关键点。 4.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法, 其特征在于, 所述脸部嘴型替换采用Sw itching Eds实现脸部嘴部特 征替换。 5.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法, 其特征在于, 所述语音合成采用端到端的fasterspe ech2训练目标声 音音频。 6.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法, 其特征在于, 所述轮廓相似度计算采用hausdorff最小化原虚拟数字人嘴型序列与将要替换的嘴型序列 之间嘴型的轮廓相似度。 7.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法, 其特征在于, 原视频素材采集包括人体动作、 人脸3/4正脸左右范围内、 以及清晰的录音, 视频录制时的 背景应为纯色, 人体动作不可遮挡人脸, 人脸表情自然微笑, 表述内容为汉语拼音声母韵母 表, 视频录制长度一分钟; 考虑到人体动作表情受到 说话表述的影响, 待采集视频素材也可 分段采集, 即将人体动作表情和说话表述分开录制; 被采集对象在 念汉语声母韵母表时, 嘴 型尽量张开, 吐字清晰。 8.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法, 其特征在于, 所述音频对齐 计算具体实现如下: 原视频素材中音频是严格按照声母韵母表得到, 只是每个音A表示在整个时间线上所 处的开始Astart和结束Aend位置是不确定的, 调用已经训练好的MFA汉语拼音对齐模型, 封装 shell执行脚本命令到自动化Pyt hon中, 返回得到TextGrid格式数据, 之后对TextGrid格式 数据进行解析; 原视频素材中音频包含所有的声母韵母音以及与之对应唇形视频开始权 利 要 求 书 1/2 页 2 CN 115511994 A 2Lipstart和结束Lipend位置, 这里让其形成一个字典集Set; 类似的, 通 过语音合成的新音频以 同样的方式执行MFA的shell脚本得到每个音的开始和结束, 通过遍历每个音去匹配字典集 Set, 进而匹配到对应的唇形序列; 原视频素材中音频作为检索库, 而新音频作为匹配内容 从字典集Set中匹配; 匹配的过程考虑字典集Set中推荐的发音长度尽可能与新音 频发音长 度相差最小 MinDtime; 以此类推, 新音频的每个音都找到与之匹配的检索结果, 并最终串起来 实现与新音频发音对齐的重组音频序列; 若新音频 的每个发音之间出现无音情况, 即上一 个AstartAend对与下一个AstartAend对之间时间线上不是绝对覆盖的, 则直接将无音 区用上一 个AstartAend对复用。 9.根据权利要求8所述的一种快速将真人克隆为二维虚拟数字人的方法, 其特征在于, 所述轮廓相似度计算的具体实现方式如下: 在已经确定新音频每个发音在原音频中的AstartAend对位置, 以此对应到LipstartLipend 对, 最后选择的LipstartLipend对额外做帧插值处理, 使其时长能与 新音频发音保持一样长, 以此类推得到与 新音频对齐的所有LipstartLipend对, 并将此按照步骤S3进行逐帧替换到原 虚拟数字人的嘴型, 最后合并音频完成新的视频序列输出; MinDtime仅用于推荐尽可能与新 音频发音时长相差最小, 但不是最 终选择的一个, 而 是缩小推荐 数量, 考虑嘴型替换后过渡 差异性问题, 利用hausdorff算法最小化两者之间嘴型的轮廓相似度, 分别将 每个原视频人 体分割后的每 一帧Image2与原视频人体分割后的每 一帧Image1计算hausdorff, 最小值即为 最终的选择; 如果新音频时长大于原音频长度时, 将会继续重新复用循环原视频人体分割 后的每一帧Ima ge1, 直到长度与新音频一样才结束。 10.一种快速将真人克隆为二维虚拟数字人的系统, 其特征在于, 包括存储器、 处理器 以及存储于存储器上并能够被处理器运行的计算机程序指 令, 当处理器运行该计算机程序 指令时, 能够实现如权利要求1 ‑9任一所述的方法步骤。权 利 要 求 书 2/2 页 3 CN 115511994 A 3

.PDF文档 专利 一种快速将真人克隆为二维虚拟数字人的方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种快速将真人克隆为二维虚拟数字人的方法 第 1 页 专利 一种快速将真人克隆为二维虚拟数字人的方法 第 2 页 专利 一种快速将真人克隆为二维虚拟数字人的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:16:51上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。