(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211024813.5
(22)申请日 2022.08.25
(65)同一申请的已公布的文献号
申请公布号 CN 115100582 A
(43)申请公布日 2022.09.23
(73)专利权人 有米科技股份有限公司
地址 510006 广东省广州市番禺区小谷围
街青蓝街26号1701
(72)发明人 黄于晏 陈畅新
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 江银会
(51)Int.Cl.
G06F 40/30(2020.01)
G06V 20/40(2022.01)G06F 40/279(2020.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)
H04N 5/265(2006.01)
H04N 21/44(2011.01)
(56)对比文件
CN 113792113 A,2021.12.14
CN 113591902 A,2021.1 1.02
CN 113762322 A,2021.12.07
CN 114840651 A,202 2.08.02
CN 112990297 A,2021.0 6.18
CN 114445201 A,202 2.05.06
CN 114358243 A,202 2.04.15
审查员 黄艳艳
(54)发明名称
基于多模态数据的模型训练方法及装置
(57)摘要
本发明公开了一种基于多模态数据的模型
训练方法及装置, 该方法包括: 根据确定出的至
少两种模态类型的训练数据集合, 训练预先确定
出的待训练重构模型, 得到待定重构模型; 确定
待定重构 模型的重构损失参数, 并根据重构损失
参数, 判断待定重构模型是否收敛, 若是, 则将待
定重构模型确定为目标重构模型。 可见, 实施本
发明能够同时对多个模态类型对应的待训练分
支模型进行联合训练, 从而训练出目标重构模
型, 以通过其生成各模态类型对应的结果。 相较
于单独训练多个模型来说, 不仅可以缩短多个模
型训练的时长, 从而快速地训练出多个模态类型
的模型, 还 可以降低各模型之间的语义特征分析
差异性, 从而能够提高生 成的各模态类型对应的
结果之间的匹配度。
权利要求书4页 说明书19页 附图5页
CN 115100582 B
2022.12.02
CN 115100582 B
1.一种基于多模态数据的模型训练方法, 其特 征在于, 所述方法包括:
确定至少两种 模态类型的目标训练数据集合; 每种所述模态类型的目标训练数据集合
均包括若干个目标训练数据子集, 所有所述模态类型的目标训练数据集合至少包括视频帧
模态类型的目标训练数据集 合以及文本模态类型的目标训练数据集 合;
根据所有所述模态类型的目标训练数据集合, 对预先确定出的待训练重构模型进行训
练, 得到待定重构模 型, 其中, 所述待训练重构模 型包括与每种所述模态类型分别对应的待
训练分支模型;
确定所述待定重构模型的目标重构损失参数, 并根据所述待定重构模型的目标重构损
失参数, 判断所述待定 重构模型 是否收敛;
当判断结果为是时, 将所述待定重构模型确定为目标重构模型; 所述目标重构模型用
于对待补充的初始素 材进行素材补充, 以生成与所述初始素 材相匹配的目标 结果;
其中, 所述根据所有所述模态类型的目标训练数据集合, 对预先确定出的待训练重构
模型进行训练, 得到待定 重构模型, 包括:
将所有所述模态类型的目标训练数据集合输入至预先确定出的待训练重构模型中, 以
使所述待训练重构模型所包括的与每种所述模态类型分别对应的待训练分支模型的嵌入
层执行如下操作: 对于该模态类型 的目标训练数据集合中的每个所述 目标训练数据子集,
确定该目标训练数据子集对应的第一特征向量以及确定该目标训练数据子集对应的目标
模态类型数据的缺失占比; 根据所述 目标模态类型数据的缺失占比, 确定该目标训练数据
子集的掩码参数; 根据所述掩码参数, 对该目标训练数据子集对应的第一特征向量中与所
述掩码参数相匹配的向量内容进行掩码, 得到该目标训练数据子集对应的第二特征向量;
所述掩码参数包括所需掩码的数据占比和/或所需掩码的数据位置;
对于输入的每种所述模态类型的目标训练数据集合, 通过该模态类型对应的待训练分
支模型的特征融合层, 对其所包括的每个所述目标训练数据子集对应的第二特征向量与预
先对应生成的第三特征向量执行融合操作, 得到所有 所述目标训练数据子集对应的融合后
特征向量;
对于输入的每种所述模态类型的目标训练数据集合, 通过该模态类型对应的待训练分
支模型的预测重构层, 对其所包括的每个所述目标训练数据子集对应的融合后特征向量中
被掩码的所述向量内容执行预测重构操作, 得到所有 所述目标训练数据子集对应的预测重
构向量内容。
2.根据权利要求1所述的基于多模态数据的模型训练方法, 其特征在于, 所述第 三特征
向量是通过该模态类型对应的其余待训练分支模型的嵌入层对其余模态类型的目标训练
数据集合进行向量转换得到的, 或者对该目标训练数据子集所缺 失的所述目标模态类型数
据进行向量初始化得到的。
3.根据权利要求2所述的基于多模态数据的模型训练方法, 其特征在于, 所述确定所述
待定重构模型的目标重构损失参数, 包括:
对于每种所述模态类型的目标训练数据集合, 计算其所包括的每个所述目标训练数据
子集对应的预测重构向量内容与对应的所述第一特征向量之间的距离回归损失参数, 得到
所有所述目标训练数据子集对应的距离回归损失参数, 并根据所有所述目标训练数据子集
对应的距离回归损失参数, 确定该模态类型对应的训练后分支模型的重构损失参数;权 利 要 求 书 1/4 页
2
CN 115100582 B
2通过每种所述模态类型分别对应的待训练分支模型的预测重构层, 提取每个所述模态
类型的目标训练数据集合对应的语义特征信息, 并根据所有 所述模态类型的目标训练数据
集合对应的语义特征信息, 计算所有 所述模态类型的目标训练数据集合之 间的语义特征损
失参数, 作为所述待定 重构模型的目标语义特 征损失参数;
根据所有所述模态类型分别对应的训练后分支模型的重构损失参数以及所述目标语
义特征损失参数, 计算所述待定 重构模型的目标重构损失参数。
4.根据权利要求3所述的基于多模态数据的模型训练方法, 其特征在于, 所述根据 所有
所述模态类型分别对应的训练后分支模型的重构损失参数以及所述目标语义特征损失参
数, 计算所述待定 重构模型的目标重构损失参数, 包括:
确定所有所述模态类型分别对应的训练后分支模型的重构损失参数的第一计算比例
以及所述目标语义特 征损失参数的第二计算比例;
根据所有所述模态类型分别对应的训练后分支模型的重构损失参数及对应的所述重
构损失参数 的第一计算比例、 所述 目标语义特征损失参数以及所述第二计算比例, 计算所
述待定重构模型的目标重构损失参数;
其中, 所述目标重构损失参数为:
Loss_total=(Loss_1*rati o_1+…+Loss_n*rati o_n)+Loss_ce*rati o_ce;
Loss_total为所述目标重构损失参数, Loss_n为对应的模态类型对应的训练后分支模
型的重构损失参数, ratio_n为对应的所述重构损失参数的第一计算比例, Loss_ce为所述
目标语义特 征损失参数, rati o_ce为所述第二计算比例。
5.根据权利要求1 ‑4任一项所述的基于多模态数据的模型训练方法, 其特征在于, 所述
根据所述待定 重构模型的目标重构损失参数, 判断所述待定 重构模型 是否收敛, 包括:
判断所述目标重构损 失参数是否大于等于预设重构损 失阈值, 若是, 则确定所述待定
重构模型不收敛;
以及, 所述方法还 包括:
当判断出所述待定重构模型不收敛时, 将所述待定重构模型确定为新的待训练重构模
型, 并触发执行所述的根据所有所述模态类型 的目标训练数据集合, 对预先确定出 的待训
练重构模 型进行训练, 得到待定重构模 型; 以及, 确定所述待定重构模型的目标重构损失参
数, 并根据所述待定重构模型 的目标重构损失参数, 判断所述待定重构模型是否 收敛的操
作。
6.根据权利要求5所述的基于多模态数据的模型训练方法, 其特征在于, 在所述将所述
待定重构模型确定为目标重构模型之后, 所述方法还 包括:
当待补充的所述初始素材为初始文本素材时, 将所述初始文本素材输入至所述目标重
构模型中, 并通过与所述初始文本素材相匹配的所述 目标重构模型 的嵌入层, 对所述初始
文本素材进行向量 转换, 得到所述初始文本素 材的文本特 征向量;
通过与所述初始文本素材相匹配的所述目标重构模型的特征融合层, 对所述初始文本
素材的文本特征向量以及预先对应生成的第一辅助特征向量进行融合, 得到所述初始文本
素材的融合后特 征向量;
通过与所述初始文本素材相匹配的所述目标重构模型的预测重构层, 对所述初始文本
素材的融合后特征向量中待预测重构的向量内容进行预测重构, 得到所述初始文本素材的权 利 要 求 书 2/4 页
3
CN 115100582 B
3
专利 基于多模态数据的模型训练方法及装置
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:06:29上传分享