专利 一种快速将真人克隆为二维虚拟数字人的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211256426.4 (22)申请日 2022.10.14 (71)申请人厦门靠谱云股份有限公司地址 361000 福建省厦门市湖里区火炬高新区软件园创新大厦C区3F-A317 (72)发明人肖永强　郑义恒　唐尉棉　 (74)专利代理机构福州元创专利商标代理有限公司 35100 专利代理师陈明鑫　蔡学俊 (51)Int.Cl. G06T 11/00(2006.01) G06T 3/00(2006.01) G06V 40/16(2022.01) G10L 13/08(2013.01) (54)发明名称一种快速将真人克隆为二维虚拟数字人的方法 (57)摘要本发明涉及一种快速将真人克隆为二维虚拟数字人的方法，提供一种在二维虚拟数字人创建场景下快速克隆出真人高保真的方案，该场景是以录制二维真人视频为主要素材，实现新的音频驱动重组原嘴型序列的一种方法。包括：人体分割、人脸关键点提取、脸部嘴型替换、语音合成、音频对齐计算、轮廓相似度计算。在具体实施过程中，模块间协同工作，最终可以自动化创建二维数字人的流程。由于创建数字人需要以低成本有效方式进行，在真人素材采集上使用手机清晰简便录制尚可。另外，考虑到如何缓解嘴型替换后过渡差异性问题，也就是在保障嘴型重组之后的序列流畅与自然情况下，本发明引入原嘴型与替换嘴型之间的轮廓相似度计算作为约束性选择。权利要求书2页说明书4页附图1页 CN 115511994 A 2022.12.23 CN 115511994 A 1.一种快速将真人克隆为二维虚拟数字人的方法，其特征在于，包括： S1、人体分割：将原视频素材中的人分离出来，备用于二次加工美化虚拟数字人； S2、人脸关键点提取：基于人体分割，提取人体脸部关键点； S3、脸部嘴型替换：将新音频对齐嘴型的帧序列进行旋转、缩放和平移以适合原虚拟数字人视频时间点，之后调整图像中的色彩平衡以匹配原图像，并将图像中的特征融合到原图像之上； S4、语音合成：实现文本到语音tts转换，得到新的音频数据，用于驱动虚拟数字人嘴型序列重组； S5、音频对齐计算：预先设计将原虚拟数字人的音频按照汉语拼音声母表对齐，类似的，新音频也同样与汉语拼音表对齐，之后根据时间线即可对应到原虚拟数字人的嘴型；一个发音可重复采集多个嘴型结果，以此来完成嘴型序列的推荐； S6、轮廓相似度计算：最小化原虚拟数字人嘴型序列与将要替换的嘴型序列之间嘴型的轮廓相似度。 2.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法，其特征在于，所述人体分割采用RVM循环神经网络来处理具有时间记忆的视频人体分割技术。 3.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法，其特征在于，所述人脸关键点提取采用i nsightface提取脸部1 11个关键点。 4.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法，其特征在于，所述脸部嘴型替换采用Sw itching Eds实现脸部嘴部特征替换。 5.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法，其特征在于，所述语音合成采用端到端的fasterspe ech2训练目标声音音频。 6.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法，其特征在于，所述轮廓相似度计算采用hausdorff最小化原虚拟数字人嘴型序列与将要替换的嘴型序列之间嘴型的轮廓相似度。 7.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法，其特征在于，原视频素材采集包括人体动作、人脸3/4正脸左右范围内、以及清晰的录音，视频录制时的背景应为纯色，人体动作不可遮挡人脸，人脸表情自然微笑，表述内容为汉语拼音声母韵母表，视频录制长度一分钟；考虑到人体动作表情受到说话表述的影响，待采集视频素材也可分段采集，即将人体动作表情和说话表述分开录制；被采集对象在念汉语声母韵母表时，嘴型尽量张开，吐字清晰。 8.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法，其特征在于，所述音频对齐计算具体实现如下：原视频素材中音频是严格按照声母韵母表得到，只是每个音A表示在整个时间线上所处的开始Astart和结束Aend位置是不确定的，调用已经训练好的MFA汉语拼音对齐模型，封装 shell执行脚本命令到自动化Pyt hon中，返回得到TextGrid格式数据，之后对TextGrid格式数据进行解析；原视频素材中音频包含所有的声母韵母音以及与之对应唇形视频开始权　利　要　求　书 1/2 页 2 CN 115511994 A 2Lipstart和结束Lipend位置，这里让其形成一个字典集Set；类似的，通过语音合成的新音频以同样的方式执行MFA的shell脚本得到每个音的开始和结束，通过遍历每个音去匹配字典集 Set，进而匹配到对应的唇形序列；原视频素材中音频作为检索库，而新音频作为匹配内容从字典集Set中匹配；匹配的过程考虑字典集Set中推荐的发音长度尽可能与新音频发音长度相差最小 MinDtime；以此类推，新音频的每个音都找到与之匹配的检索结果，并最终串起来实现与新音频发音对齐的重组音频序列；若新音频的每个发音之间出现无音情况，即上一个AstartAend对与下一个AstartAend对之间时间线上不是绝对覆盖的，则直接将无音区用上一个AstartAend对复用。 9.根据权利要求8所述的一种快速将真人克隆为二维虚拟数字人的方法，其特征在于，所述轮廓相似度计算的具体实现方式如下：在已经确定新音频每个发音在原音频中的AstartAend对位置，以此对应到LipstartLipend 对，最后选择的LipstartLipend对额外做帧插值处理，使其时长能与新音频发音保持一样长，以此类推得到与新音频对齐的所有LipstartLipend对，并将此按照步骤S3进行逐帧替换到原虚拟数字人的嘴型，最后合并音频完成新的视频序列输出； MinDtime仅用于推荐尽可能与新音频发音时长相差最小，但不是最终选择的一个，而是缩小推荐数量，考虑嘴型替换后过渡差异性问题，利用hausdorff算法最小化两者之间嘴型的轮廓相似度，分别将每个原视频人体分割后的每一帧Image2与原视频人体分割后的每一帧Image1计算hausdorff，最小值即为最终的选择；如果新音频时长大于原音频长度时，将会继续重新复用循环原视频人体分割后的每一帧Ima ge1，直到长度与新音频一样才结束。 10.一种快速将真人克隆为二维虚拟数字人的系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1 ‑9任一所述的方法步骤。权　利　要　求　书 2/2 页 3 CN 115511994 A 3

专利 一种快速将真人克隆为二维虚拟数字人的方法

专利一种快速将真人克隆为二维虚拟数字人的方法