(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210391286.5
(22)申请日 2022.04.14
(71)申请人 哈尔滨工业大 学重庆研究院
地址 401120 重庆市渝北区龙兴镇两江大
道618号
(72)发明人 陈斌 侯孝振 张元 陈子和
(74)专利代理 机构 上海双诚知识产权代理事务
所(普通合伙) 31423
专利代理师 方玉
(51)Int.Cl.
G06V 10/774(2022.01)
G06K 9/62(2022.01)
G06V 10/46(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06F 40/253(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
多模态信息预训练方法及系统
(57)摘要
本发明提供的多模态信息预训练方法及系
统, 涉及人工智 能技术领域, 通过构建第一多模
态信息, 基于MOCO对比学习模型, 随机选择第一
图像集合中的一个或多个图像进行几何变换, 得
到第二图像集合, 基于MOCO对比学习模型, 随机
选择第一文本集合中的一个或多个文本进行语
法结构变换, 得到第二文本集合, 分别对第二图
像集合中的各个图像进行编码, 生成对应的第一
高维隐向量集合, 根据目标损失值, 对第一多模
态信息进行预训练, 在有限负样本下, 使得网络
模型能够接触更多的负样本, 增大类间距离, 有
利于细粒度地检索图文, 极大地节省了时间, 能
够达到更好的预训练效果。
权利要求书2页 说明书10页 附图2页
CN 114998670 A
2022.09.02
CN 114998670 A
1.一种多模态信息预训练方法, 其特 征在于, 包括:
构建第一多模态信息, 其中, 所述第一多模态信息包括多组由图像及文本组成的图文
信息对, 其中, 各 组图文信息对中的各个图像组成第一图像集合, 各组图文信息对中的各个
文本组成第一文本集 合;
基于MOCO对比学习模型, 从所述第一图像集合中随机选择一个或多个图像进行几何变
换, 将经过几何变换后的一个或多个图像写入所述第一图像集 合, 得到第二图像集 合;
基于MOCO对比学习模型, 从所述第一文本集合中随机选择一个或多个文本进行语法结
构变换, 将经过语法结构变换后的一个或多个文本写入所述第一文本集合, 得到第二文本
集合;
分别对所述第二图像集 合中的各个图像进行编码, 生成对应的第一高维隐向量 集合;
分别对所述第二文本集 合中的各个文本进行编码, 生成对应的第二高维隐向量 集合;
根据所述第 一高维隐向量集合及所述第 二高维隐向量集合, 确定所述第 一多模态信 息
的目标损失值;
根据所述目标损失值, 对所述第一多模态信息进行 预训练。
2.根据权利要求1所述的多模态信 息预训练方法, 其特征在于, 从所述第 一图像集合中
随机选择一个或多个图像进行几何变换包括:
从所述第一图像集合中随机选择一个或多个图像执行颜色变化、 仿射变换及擦除中的
一种或多种操作。
3.根据权利要求1所述的多模态信 息预训练方法, 其特征在于, 从所述第 一文本集合中
随机选择一个或多个文本进行语法结构变换包括:
从所述第一文本集 合中随机 选择一个或多个文本进行回译。
4.根据权利要求1所述的多模态信 息预训练方法, 其特征在于, 根据所述第 一高维隐向
量集合及所述第二高维隐向量 集合, 确定所述第一多模态信息的目标损失值包括:
依次将所述第一高维隐向量集合及所述第二高维隐向量集合输入预先训练过的交叉
注意力模型, 对所述第一高维隐向量集合及所述第二高维隐向量集合进行跨模态融合, 得
到第二多模态信息;
根据所述第 二多模态信 息中各个图像的特征及各个文本的类别, 分别计算所述第 一图
像集合对应的第一损失值及所述第一文本集 合对应的第二损失值;
根据所述第一损失值及所述第二损失值, 确定所述第一多模态信息的目标损失值。
5.根据权利要求 4所述的多模态信息预训练方法, 其特 征在于:
所述第一损失值的计算公式为:
所述第二损失值的计算公式为:
其中,
为在一个batch_size内第j个图像I经过图像编码器得到的隐向量,
为第j个
图像所对应的文本T经过编码得到的隐向量, queueT为第二高维隐向量集合中负样本文本权 利 要 求 书 1/2 页
2
CN 114998670 A
2的类别,
为一个bat ch_size内第j个文本T经过编码得到的隐向量,
为第j个文本 所对应
的图像I经过编码得到的隐向量, queueI为第一高维 隐向量集合中负样本的图像特征, r为
温度系数。
6.根据权利要求4所述的多模态信 息预训练方法, 其特征在于, 所述预先训练过的交叉
注意力模型的训练过程包括:
分别判断所述第 一多模态信 息中的各个文本是否准确描述对应的图像, 生成对应的多
个判断结果;
分别将多个所述判断结果输入交叉注意力模型对所述交叉注意力模型进行训练。
7.根据权利要求6所述的多模态信 息预训练方法, 其特征在于, 所述预先训练过的交叉
注意力模型的训练过程还 包括:
从所述第二图像集 合中随机 选择设定数量的图像进行掩码 操作;
分别对掩码后的各个图像进行编码, 预测编码后各个图像的特 征;
将各个所述图像的特 征分别输入交叉注意力模型对所述交叉注意力模型进行训练。
8.根据权利要求7所述的多模态信 息预训练方法, 其特征在于, 所述预先训练过的交叉
注意力模型的训练过程还 包括:
从所述第二文本集 合中随机 选择设定数量的文本进行掩码 操作;
分别对掩码后的各个文本进行编码, 预测编码后各个文本的类别;
将各个所述文本的类别分别输入交叉注意力模型对所述交叉注意力模型进行训练。
9.根据权利要求8所述的多模态信 息预训练方法, 其特征在于, 根据所述第 一损失值及
所述第二损失值, 确定所述第一多模态信息的目标损失值包括:
将所述第一损失值与所述第二损失值的和作为所述第一多模态信息的目标损失值。
10.一种多模态信息预训练系统, 其特 征在于, 包括:
构建模块, 被配置为构建第 一多模态信 息, 其中, 所述第 一多模态信 息包括多组由图像
及文本组成的图文信息对, 其中, 各 组图文信息对中的各个图像组成第一图像集合, 各组图
文信息对中的各个文本组成第一文本集 合;
选择模块, 被配置为基于MOCO对比学习模型, 随机选择所述第一图像中的一个或多个
图像进行几何变换, 将经过几何变换后的一个或多个图像写入所述第一图像集合, 得到第
二图像集 合;
所述选择模块, 还被配置为基于MOCO对比学习模型, 随机选择所述第一文本集合中的
一个或多个文本进行语法结构 变换, 将经过语法结构变换后的一个 或多个文本写入所述第
一文本集 合, 得到第二文本集 合;
编码模块, 被配置为分别对所述第二图像集合中的各个图像进行编码, 生成第一高维
隐向量集合;
所述编码模块, 还被配置分别对所述第二文本集合中的各个文本进行编码, 生成第二
高维隐向量 集合;
确定模块, 被配置为根据所述第一高维隐向量集合及所述第二高维隐向量集合, 确定
所述第一多模态信息的目标损失值;
预训练模块, 被 配置为根据所述目标损失值, 对所述第一多模态信息进行 预训练。权 利 要 求 书 2/2 页
3
CN 114998670 A
3
专利 多模态信息预训练方法及系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:38:46上传分享