专利 一种联合对比学习与自监督区域定位的图像情感预测方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211020881.4 (22)申请日 2022.08.24 (65)同一申请的已公布的文献号申请公布号 CN 115100390 A (43)申请公布日 2022.09.23 (73)专利权人华东交通大学地址 330000 江西省南昌市经济技术开发区双港东大街808号 (72)发明人张红斌　侯婧怡　熊其鹏　袁梦　石皞炜　李广丽　 (74)专利代理机构北京中济纬天专利代理有限公司 11429 专利代理师黄攀 (51)Int.Cl. G06V 10/20(2022.01)G06V 10/778(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/08(2006.01) (56)对比文件 CN 113011427 A,2021.0 6.22 CN 114201605 A,2022.03.18 CN 112686898 A,2021.04.20 审查员李华 (54)发明名称一种联合对比学习与自监督区域定位的图像情感预测方法 (57)摘要本发明提出一种联合对比学习与自监督区域定位的图像情感预测方法，所述方法包括：获取图像情感数据集，并对图像情感数据集中的多个图像进行预处理操作，构建得到两个自监督区域定位网络并进行预训练；通过对比学习方法，对自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征；对优化后的图像特征进行自适应特征融合，以构建得到多视角特征回溯网络；将多视角特征回溯网络的最后一层、与全连接层以及Softmax层进行连接，以构建得到图像情感预测模型；将待处理图像输入至图像情感预测模型中，以最终输出得到待处理图像对应的情感倾向。本发明可准确描述图像蕴含的情感语义，实现客观精准的图像情感预测。权利要求书4页说明书11页附图2页 CN 115100390 B 2022.11.18 CN 115100390 B 1.一种联合对比学习与自监督区域定位的图像情感预测方法，其特征在于，所述方法包括如下步骤：步骤一、获取图像情感数据集，并对所述图像情感数据集中的多个图像进行预处理操作，其中所述预处理操作包括数据增强操作以及图像情感数据对的构造；步骤二、基于深度学习网络，构建得到两个自监督区域定位网络，并对两个所述自监督区域定位网络分别进行预训练；步骤三、通过对比学习方法，对所述自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征；步骤四、对两个所述自监督区域定位网络中得到的优化后的图像特征进行自适应特征融合，以构建得到多视角特征回溯网络；步骤五、将所述多视角特征回溯网络的最后一层、与全连接层以及Softmax层进行连接，以构建得到图像情感预测模型；步骤六、将待处理图像输入至所述图像情感预测模型中，以最终输出得到待处理图像对应的情感倾向；在所述步骤二中，所述自监督区域定位网络的构建方法包括如下步骤：选择一个深度学习网络作为主干网络，基于所述深度学习网络提取得到图像全局特征；在所述图像全局特征中随机生成多个不同尺度的矩形区域框，根据每个矩形区域框中的图像特征计算得到每个矩形区域框的情感信息量，并对所述情感信息量进行降序排序得到第一排序结果，其中所述第一排序结果为情感信息量排序结果；将所有的矩形区域框进行尺度归一化后重新输入至所述深度学习网络中，计算每一个矩形区域框对应的情感信任值，根据多个所述情感信任值的大小对多个所述矩形区域框进行排序得到第二排序结果，其中所述第二排序结果为情感信任值排序结果；根据所述第二排序结果，对所述第一排序结果进行监督，以最终生成与情感信任值排序相同的情感信息量排序；选取情感信息量排序中情感信息量最高的 N个图像局部区域，通过深度学习网络提取所述N个图像局部区域的局部特征，将所述图像全局特征与所述 N个图像局部区域的局部特征进行拼接融合，以得到融合特征，从而完成自监督区域定位网络的构建；所述深度学习网络包括SENet深度学习网络与ResNet深度学习网络；在所述图像全局特征中随机生成多个不同尺度的矩形区域框的步骤中，多个不同尺度的矩形区域框对应表示为：根据每个矩形区域框中的图像特征计算得到每个矩形区域框的情感信息量，并对所述情感信息量进行降序排序的方法中，对应的公式表示为：其中，表示矩形区域框的最大数量，表示矩形区域框，表示第个矩形区域权　利　要　求　书 1/4 页 2 CN 115100390 B 2框，表示第个矩形区域框的情感信息量；选取前个情感信息量最高的矩形区域框作为候选矩形区域框，对应的情感信息量的第一排序结果为；将选取的个矩形区域框重新输入至SENet深度学习网络中，提取每个矩形区域框的局部特征，计算得到对应的情感信任值的第二排序结果为，其中，表示第个矩形区域框的情感信任值；以情感信任值的第二排序结果为基准，用于指导情感信息量的排序，以使得情感信息量的第一排序结果与情感信任值的第二排序结果具有相同顺序；选取情感信息量排序中情感信息量最高的 N个图像局部区域，通过深度学习网络提取所述N个图像局部区域的局部特征，将所述图像全局特征与所述 N个图像局部区域的局部特征进行拼接融合，以得到融合特征，从而完成SENet自监督区域定位网络的构建；所述自监督区域定位网络对应的损失函数的表达式为：其中，表示自监督区域定位网络对应的损失函数，表示第个矩形区域框的情感信任值，表示第个矩形区域框的情感信任值，表示第个矩形区域框的情感信息量，表示第个矩形区域框的情感信息量；表示合页损失函数，当时，合页损失函数使；对两个自监督区域定位网络分别进行预训练时，使用交叉熵损失函数对每个自监督区域定位网络进行优化，每一个候选矩形区域框都通过最小化真实标签和预测结果的交叉熵损失来完成优化，对应的交叉熵损失函数表示为：其中，表示自监督区域定位网络的损失函数，表示样本真实标签对应的情感信任值，表示样本真实标签；在所述步骤四中，对两个所述自监督区域定位网络中得到的优化后的图像特征进行自适应特征融合，以构建得到多视角特征回溯网络的方法包括如下步骤：将预训练后的自监督区域定位网络、优化后的图像特征以及自适应特征进行融合，以权　利　要　求　书 2/4 页 3 CN 115100390 B 3

专利 一种联合对比学习与自监督区域定位的图像情感预测方法

专利一种联合对比学习与自监督区域定位的图像情感预测方法