专利 多模态信息预训练方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210391286.5 (22)申请日 2022.04.14 (71)申请人哈尔滨工业大学重庆研究院地址 401120 重庆市渝北区龙兴镇两江大道618号 (72)发明人陈斌　侯孝振　张元　陈子和　 (74)专利代理机构上海双诚知识产权代理事务所(普通合伙) 31423 专利代理师方玉 (51)Int.Cl. G06V 10/774(2022.01) G06K 9/62(2022.01) G06V 10/46(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06F 40/253(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称多模态信息预训练方法及系统 (57)摘要本发明提供的多模态信息预训练方法及系统，涉及人工智能技术领域，通过构建第一多模态信息，基于MOCO对比学习模型，随机选择第一图像集合中的一个或多个图像进行几何变换，得到第二图像集合，基于MOCO对比学习模型，随机选择第一文本集合中的一个或多个文本进行语法结构变换，得到第二文本集合，分别对第二图像集合中的各个图像进行编码，生成对应的第一高维隐向量集合，根据目标损失值，对第一多模态信息进行预训练，在有限负样本下，使得网络模型能够接触更多的负样本，增大类间距离，有利于细粒度地检索图文，极大地节省了时间，能够达到更好的预训练效果。权利要求书2页说明书10页附图2页 CN 114998670 A 2022.09.02 CN 114998670 A 1.一种多模态信息预训练方法，其特征在于，包括：构建第一多模态信息，其中，所述第一多模态信息包括多组由图像及文本组成的图文信息对，其中，各组图文信息对中的各个图像组成第一图像集合，各组图文信息对中的各个文本组成第一文本集合；基于MOCO对比学习模型，从所述第一图像集合中随机选择一个或多个图像进行几何变换，将经过几何变换后的一个或多个图像写入所述第一图像集合，得到第二图像集合；基于MOCO对比学习模型，从所述第一文本集合中随机选择一个或多个文本进行语法结构变换，将经过语法结构变换后的一个或多个文本写入所述第一文本集合，得到第二文本集合；分别对所述第二图像集合中的各个图像进行编码，生成对应的第一高维隐向量集合；分别对所述第二文本集合中的各个文本进行编码，生成对应的第二高维隐向量集合；根据所述第一高维隐向量集合及所述第二高维隐向量集合，确定所述第一多模态信息的目标损失值；根据所述目标损失值，对所述第一多模态信息进行预训练。 2.根据权利要求1所述的多模态信息预训练方法，其特征在于，从所述第一图像集合中随机选择一个或多个图像进行几何变换包括：从所述第一图像集合中随机选择一个或多个图像执行颜色变化、仿射变换及擦除中的一种或多种操作。 3.根据权利要求1所述的多模态信息预训练方法，其特征在于，从所述第一文本集合中随机选择一个或多个文本进行语法结构变换包括：从所述第一文本集合中随机选择一个或多个文本进行回译。 4.根据权利要求1所述的多模态信息预训练方法，其特征在于，根据所述第一高维隐向量集合及所述第二高维隐向量集合，确定所述第一多模态信息的目标损失值包括：依次将所述第一高维隐向量集合及所述第二高维隐向量集合输入预先训练过的交叉注意力模型，对所述第一高维隐向量集合及所述第二高维隐向量集合进行跨模态融合，得到第二多模态信息；根据所述第二多模态信息中各个图像的特征及各个文本的类别，分别计算所述第一图像集合对应的第一损失值及所述第一文本集合对应的第二损失值；根据所述第一损失值及所述第二损失值，确定所述第一多模态信息的目标损失值。 5.根据权利要求 4所述的多模态信息预训练方法，其特征在于：所述第一损失值的计算公式为：所述第二损失值的计算公式为：其中，为在一个batch_size内第j个图像I经过图像编码器得到的隐向量，为第j个图像所对应的文本T经过编码得到的隐向量， queueT为第二高维隐向量集合中负样本文本权　利　要　求　书 1/2 页 2 CN 114998670 A 2的类别，为一个bat ch_size内第j个文本T经过编码得到的隐向量，为第j个文本所对应的图像I经过编码得到的隐向量， queueI为第一高维隐向量集合中负样本的图像特征， r为温度系数。 6.根据权利要求4所述的多模态信息预训练方法，其特征在于，所述预先训练过的交叉注意力模型的训练过程包括：分别判断所述第一多模态信息中的各个文本是否准确描述对应的图像，生成对应的多个判断结果；分别将多个所述判断结果输入交叉注意力模型对所述交叉注意力模型进行训练。 7.根据权利要求6所述的多模态信息预训练方法，其特征在于，所述预先训练过的交叉注意力模型的训练过程还包括：从所述第二图像集合中随机选择设定数量的图像进行掩码操作；分别对掩码后的各个图像进行编码，预测编码后各个图像的特征；将各个所述图像的特征分别输入交叉注意力模型对所述交叉注意力模型进行训练。 8.根据权利要求7所述的多模态信息预训练方法，其特征在于，所述预先训练过的交叉注意力模型的训练过程还包括：从所述第二文本集合中随机选择设定数量的文本进行掩码操作；分别对掩码后的各个文本进行编码，预测编码后各个文本的类别；将各个所述文本的类别分别输入交叉注意力模型对所述交叉注意力模型进行训练。 9.根据权利要求8所述的多模态信息预训练方法，其特征在于，根据所述第一损失值及所述第二损失值，确定所述第一多模态信息的目标损失值包括：将所述第一损失值与所述第二损失值的和作为所述第一多模态信息的目标损失值。 10.一种多模态信息预训练系统，其特征在于，包括：构建模块，被配置为构建第一多模态信息，其中，所述第一多模态信息包括多组由图像及文本组成的图文信息对，其中，各组图文信息对中的各个图像组成第一图像集合，各组图文信息对中的各个文本组成第一文本集合；选择模块，被配置为基于MOCO对比学习模型，随机选择所述第一图像中的一个或多个图像进行几何变换，将经过几何变换后的一个或多个图像写入所述第一图像集合，得到第二图像集合；所述选择模块，还被配置为基于MOCO对比学习模型，随机选择所述第一文本集合中的一个或多个文本进行语法结构变换，将经过语法结构变换后的一个或多个文本写入所述第一文本集合，得到第二文本集合；编码模块，被配置为分别对所述第二图像集合中的各个图像进行编码，生成第一高维隐向量集合；所述编码模块，还被配置分别对所述第二文本集合中的各个文本进行编码，生成第二高维隐向量集合；确定模块，被配置为根据所述第一高维隐向量集合及所述第二高维隐向量集合，确定所述第一多模态信息的目标损失值；预训练模块，被配置为根据所述目标损失值，对所述第一多模态信息进行预训练。权　利　要　求　书 2/2 页 3 CN 114998670 A 3

专利 多模态信息预训练方法及系统

专利多模态信息预训练方法及系统