(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211167934.5
(22)申请日 2022.09.23
(71)申请人 电子科技大 学
地址 611731 四川省成 都市高新区 (西区)
西源大道 2006号
(72)发明人 吴庆波 袁德森 孟凡满 李宏亮
许林峰 潘力立
(74)专利代理 机构 电子科技大 学专利中心
51203
专利代理师 陈一鑫
(51)Int.Cl.
G06F 16/583(2019.01)
G06F 16/532(2019.01)
G06F 16/9032(2019.01)
G06V 10/25(2022.01)G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种基于对比学习与多模态对齐的视觉问
答方法
(57)摘要
该发明公开了一种基于对比学习与多模态
对齐的视觉问答方法, 属于视觉问答领域, 该方
法在分布不平衡的视觉问答数据集下实现鲁棒
的视觉问答。 现有的基于数据增强的鲁棒视觉问
答方法往往基于反事实样本增强, 并把反事实样
本作为数据增广添加入训练中, 但并未在特征和
预测层次中构建区分反事实样 本的过程, 未深入
挖掘样本之间的关系。 本发明提出了基于对比学
习与多模态对齐的视觉问答方法来解决视觉问
答中的语言偏见问题, 通过在特征和预测层面进
行对比学习来降低模型的复杂度, 提高视觉问答
模型的泛化能力, 从而实现在语言偏见场景下鲁
棒的视觉问答。
权利要求书2页 说明书4页 附图2页
CN 115481277 A
2022.12.16
CN 115481277 A
1.一种基于对比学习与多模态对齐的视 觉问答方法, 该 方法包括:
步骤1、 视觉问答问题的形式为:给定原始特征D={Ii,Qi,ai}N其包含N对 图像Ii, 问题
Qi, 回答ai;
步骤2: 采用反事实样本合成方法来增广的样本并作为训练样本, CS S为方法函数;
(I+,I‑,Q+,Q‑)=CSS(fvqa,(I,Q,a) ) (1)
其中, fvqa为视觉问答任务的目标映射函数, (I+,I‑,Q+,Q‑)分别为图像的正事实样本, 图
像的反事实样本, 问题的正事实样本, 问题的反事实样本; CSS()为反事实样本合成方法函
数;
步骤3: 采用Faster ‑rcnn提取 图像中的感兴趣区域, 采用一个问题编码器eq提取问题
的一组单词嵌入Q, 采用一个物体检测 器iq来提取感兴趣区域的一组视觉嵌入V; 采用注意
力机制将V和Q进行特征融合, 得到混合特征F(V,Q); 采用如下方法将原始特征和正事实特
征进行拉近, 将正事实特 征与反事实特 征进行拉远;
Lc1=fc(F(Ve,Qe),F(Ve+,Qe),F(Ve‑,Qe))
Lc2=fc(F(Ve,Qe),F(Ve,Qe+),F(Ve‑,Qe‑))
Lc3=fc(F(Ve,Qe),F(Ve+,Qe+),F(Ve‑,Qe‑))
Lc=Lc1+Lc2+Lc3
其中, cos( ·)表示余弦函数, x表示输入的特征即原始特征、 正事实特征或反事实特
征, +表示正事实特征, ‑表示反事实特征, xT表示转置, Lc为将三对特征输入对比损失函 数中
得到反事实的对比损失结果, 并累加这三项后的损失, 通过使Lc最小来拉近原始特征和正
事实特征, 拉远正事实特 征与反事实特 征;
步骤4: 将步骤3得到的原始特征、 正事实特征、 反事实特征输入分类器, 得到分类向量,
采用如下 方法将分类向量进行拉近拉远处 理;
其中, p,q为分类器输出的分类向量,
表示计算p与
之间的KL散度, p
(V‑)表示分类器输入图像为反事实特征的输出分类向量, p+表示对应的正样本组合,
为
针对原始样本的对比损失,
为针对反事实样本的对比损失;
步骤5: 最终损失函数如下 所示:
权 利 要 求 书 1/2 页
2
CN 115481277 A
2其中, Lvqa为模型的分类损失, λvqa、 λc、 λ分别表示对应的权重系数; 通过优化该函数, 使
最终损失函数LCFT最小得到拉近拉远的分类向量, 通过向量 来判断分类结果。权 利 要 求 书 2/2 页
3
CN 115481277 A
3
专利 一种基于对比学习与多模态对齐的视觉问答方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:04:35上传分享