(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211020881.4
(22)申请日 2022.08.24
(65)同一申请的已公布的文献号
申请公布号 CN 115100390 A
(43)申请公布日 2022.09.23
(73)专利权人 华东交通大 学
地址 330000 江西省南昌市经济技 术开发
区双港东大街808号
(72)发明人 张红斌 侯婧怡 熊其鹏 袁梦
石皞炜 李广丽
(74)专利代理 机构 北京中济纬天专利代理有限
公司 11429
专利代理师 黄攀
(51)Int.Cl.
G06V 10/20(2022.01)G06V 10/778(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/08(2006.01)
(56)对比文件
CN 113011427 A,2021.0 6.22
CN 114201605 A,2022.03.18
CN 112686898 A,2021.04.20
审查员 李华
(54)发明名称
一种联合对比学习与自监督区域定位的图
像情感预测方法
(57)摘要
本发明提出一种联合对比学习与自监督区
域定位的图像情感预测方法, 所述方法包括: 获
取图像情感数据集, 并对图像情感数据集中的多
个图像进行预处理操作, 构建得到两个自监督区
域定位网络并进行预训练; 通过对比学习方法,
对自监督区域定位网络输出的图像特征的判别
性进行增强以得到优化后的图像特征; 对优化后
的图像特征进行自适应特征融合, 以构建得到多
视角特征回溯网络; 将多视角特征回溯网络的最
后一层、 与全连接层以及Softmax层进行连接, 以
构建得到图像情感预测模型; 将待处理图像输入
至图像情感预测模型中, 以最终输出得到待处理
图像对应的情感倾向。 本发明可准确描述图像蕴
含的情感语义, 实现客观 精准的图像情感预测。
权利要求书4页 说明书11页 附图2页
CN 115100390 B
2022.11.18
CN 115100390 B
1.一种联合对比学习与自监督区域定位的图像情感预测方法, 其特征在于, 所述方法
包括如下步骤:
步骤一、 获取图像情感数据集, 并对所述图像情感数据集中的多个图像进行预处理操
作, 其中所述预处 理操作包括数据增强操作以及图像情感数据对的构造;
步骤二、 基于深度 学习网络, 构建得到两个自监督区域定位网络, 并对两个所述自监督
区域定位网络分别进行 预训练;
步骤三、 通过对比学习方法, 对所述自监督区域定位网络输出的图像特征的判别性进
行增强以得到优化后的图像特 征;
步骤四、 对两个所述自监督 区域定位网络中得到的优化后的图像特征进行自适应特征
融合, 以构建得到多视角特 征回溯网络;
步骤五、 将所述多视角特征回溯网络的最后一层、 与全连接层以及Softmax层进行连
接, 以构建得到图像情感预测模型;
步骤六、 将待处理图像输入至所述图像情感预测模型中, 以最终输出得到待处理图像
对应的情感倾向;
在所述步骤二中, 所述自监 督区域定位网络的构建方法包括如下步骤:
选择一个深度学习网络作为主干网络, 基于所述深度学习网络提取得到图像全局特
征;
在所述图像全局特征中随机生成多个不同尺度的矩形区域框, 根据每个矩形区域框中
的图像特征计算得到每个矩形区域框的情感信息量, 并对所述情感信息量进 行降序排序得
到第一排序结果, 其中所述第一 排序结果 为情感信息量 排序结果;
将所有的矩形区域框进行尺度归一化后重新输入至所述深度学习网络中, 计算每一个
矩形区域框对应的情感信任值, 根据多个所述情感信任值的大小对多个所述矩形区域框进
行排序得到第二 排序结果, 其中所述第二 排序结果 为情感信任值 排序结果;
根据所述第二排序结果, 对所述第一排序结果进行监督, 以最终生成与情感信任值排
序相同的情感信息量 排序;
选取情感信息量排序中情感信息量最高的 N个图像局部区域, 通过深度学习 网络提取
所述N个图像局部区域的局部特征, 将所述图像全局特征与所述 N个图像局部区域的局部特
征进行拼接融合, 以得到融合特 征, 从而完成自监 督区域定位网络的构建;
所述深度学习网络包括SENet深度学习网络与ResNet深度学习网络;
在所述图像全局特征中随机生成多个不同尺度的矩形区域框的步骤中, 多个不同尺度
的矩形区域框对应表示 为:
根据每个矩形区域框中的图像特征计算得到每个矩形区域框的情感信 息量, 并对所述
情感信息量进行降序排序的方法中, 对应的公式表示 为:
其中,
表示矩形区域框的最大数量,
表示矩形区域框,
表示第
个矩形区域权 利 要 求 书 1/4 页
2
CN 115100390 B
2框,
表示第
个矩形区域框的情感信息量;
选取前
个情感信息量最高的矩形区域框
作为候选矩形区域框,
对应的情感信息量的第一 排序结果 为
;
将选取的
个矩形区域框重新输入至SENet深度学习网络中, 提取每个矩形区域框的
局部特征, 计算得到对应的情感信任值的第二排序结果为
,
其中,
表示第
个矩形区域框的情感信任值;
以情感信任值的第二排序结果为基准, 用于指导情感信息量的排序, 以使得情感信息
量的第一 排序结果与情感信任值的第二 排序结果具有相同顺序;
选取情感信息量排序中情感信息量最高的 N个图像局部区域, 通过深度学习 网络提取
所述N个图像局部区域的局部特征, 将所述图像全局特征与所述 N个图像局部区域的局部特
征进行拼接融合, 以得到融合特 征, 从而完成SENet自监 督区域定位网络的构建;
所述自监 督区域定位网络对应的损失函数的表达式为:
其中,
表示自监督区域定位网络对应的损失函数,
表示第
个矩形区域
框的情感信任值,
表示第
个矩形区域框的情感信任值,
表示第
个矩形区域框的情
感信息量,
表示第
个矩形区域框的情感信息量;
表示合页损失函数, 当
时, 合页损失函数
使
;
对两个自监督区域定位网络分别进行预训练时, 使用交叉熵损失函数对每个自监督 区
域定位网络进 行优化, 每一个候选矩形区域框都通过最小化真实标签和预测结果的交叉熵
损失来完成优化, 对应的交叉熵损失函数表示 为:
其中,
表示自监督区域定位网络的损失函数,
表示样本真实标签对应的情
感信任值,
表示样本真实标签;
在所述步骤四中, 对两个所述自监督 区域定位网络 中得到的优化后的图像特征进行自
适应特征融合, 以构建得到多视角特 征回溯网络的方法包括如下步骤:
将预训练后的自监督区域定位网络、 优化后的图像特征以及 自适应特征进行融合, 以权 利 要 求 书 2/4 页
3
CN 115100390 B
3
专利 一种联合对比学习与自监督区域定位的图像情感预测方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:12:54上传分享