专利 一种基于深度度量学习的细粒度跨媒体检索方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211399650.9 (22)申请日 2022.11.09 (71)申请人南京码极客科技有限公司地址 210000 江苏省南京市浦口区新北路1 号江北国际智谷B栋 5层 (72)发明人姚亚洲　黄丹　沈复民　孙泽人　申恒涛　 (74)专利代理机构安徽宏铎知识产权代理事务所(普通合伙) 3425 0 专利代理师菅秀君 (51)Int.Cl. G06F 16/432(2019.01) G06F 16/483(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称一种基于深度度量学习的细粒度跨媒体检索方法 (57)摘要本发明公开一种基于深度度量学习的细粒度跨媒体检索方法，包括S1.首先，将一组多媒体实例混合输入到同一深度网络中提取特征； S2. 通过线性层将不同媒体的特征映射到嵌入空间中进行度量学习； S3.使用跨媒体深度度量学习方法来同时学习细粒度语义相关性和跨媒体语义相关性；本发明通过线性层将不同的媒体特征直接映射到嵌入空间中进行相似性度量；并且为了有效度量不同媒体特征之间的相似性，采用跨媒体元组度量学习方法来度量不同媒体间的跨媒体相关性，并且采用跨媒体代理度量学习方法来度量各个媒体内的细粒度语义相关性；对比传统的细粒度跨媒体网络结构，具有更低的模型复杂度。权利要求书3页说明书8页附图2页 CN 115470365 A 2022.12.13 CN 115470365 A 1.一种基于深度度量学习的细粒度跨媒体检索方法，其特征在于，包括如下步骤： S1.首先，将一组多媒体实例混合输入到同一深度网络中提取特征； S11.通过将深度网络的最后一层修改为线性层来将不同的媒体特征映射到嵌入空间中； S12.通过跨媒体深度度量方法计算嵌入空间中数据与代理间的细粒度损失和数据之间的跨媒体损失； S2.通过线性层将不同媒体的特征映射到嵌入空间中进行度量学习； S21.将图像、视频、音频和文本四种不同媒体的特征视为一个整体，对正样本和负样本进行采样，通过拉进正样本并远离负样本，将属于同一细粒度子类别的数据聚集在一起； S22.为了防止模型训练过程中发生拟合，采用L2范数的平方作为距离度量函数，从而来推断出跨媒体元组损失； S23.对跨媒体元组损失进行梯度优化； S3.使用跨媒体深度度量学习方法来同时学习细粒度语义相关性和跨媒体语义相关性； S31.通过度量相同细粒度子类别数据和代理之间的距离来找到该类别的代理点； S32.使用跨媒体代理损失对代理点和每个训练数据进行约束； S33.通过优化跨媒体代理损失促进正样本接近代理点来减小类内差异，促进负样本远离代理点增加类间差异。 2.根据权利要求1所述的一种基于深度度量学习的细粒度跨媒体检索方法，其特征在于，在S11中，通过将深度网络的最后一层softmax层修改为线性层来将不同的媒体特征映射到嵌入空间中；线性层的输出表示为，其中 d为嵌入空间的维度，度量学习方法为：；其中a为当前计算的数据， p为正样本， n为负样本， c为当前计算的代理，为正样本数据集合，为负样本数据集合，为跨媒体元组度量学习函数，为跨媒体代理度量学习函数。 3.根据权利要求2所述的一种基于深度度量学习的细粒度跨媒体检索方法，其特征在于，在S2中，不同媒体的特征包含四种媒体数据，其中每种媒体数据表示为，表示第i个数据的特征向量，表示标签；当对第i个数据计算跨媒体元组损失，则输入数据为，将嵌入空间中所有与标签相同的数据标记为正样本，并将嵌入空间中所有与标签不同的数据标记为负样本；然后同时度量与正样本的距离和与负样本之间的距离，跨媒体元组度量学习为当前计算数据与正样本距离近、与负样本距离远，表示为：权　利　要　求　书 1/3 页 2 CN 115470365 A 2；其中，表示正样本对和负样本对之间的边距。 4.根据权利要求3所述的一种基于深度度量学习的细粒度跨媒体检索方法，其特征在于，采用L2范数的平方来作为距离度量函数，跨媒体元组损失可以定义为：；该损失梯度优化过程如下: ；；。 5.根据权利要求4所述的一种基于深度度量学习的细粒度跨媒体检索方法，其特征在于，在S3中，对于嵌入空间中的每一个数据，确定每个类别代理P的特征向量表示，通过度量相同细粒度子类别数据和代理之间的距离来找到该类别的代理点，可表示为：；其中使用L2范数的平方作来度量代理点和数据之间的距离，该距离度量表示为：。 6.根据权利要求5所述的一种基于深度度量学习的细粒度跨媒体检索方法，其特征在于，在S32中，将嵌入空间中的所有数据分为正样本集合和负样本集合，使用跨媒体代理损失来约束代理点和每个训练数据，损失如下：；其中P表示当前计算的代理点， P表示所有代理的集合，表示所有正代理的集合，表示人工定义的参数，表示细粒度子类别之间的边距，表示余弦相似度。 7.根据权利要求6所述的一种基于深度度量学习的细粒度跨媒体检索方法，其特征在权　利　要　求　书 2/3 页 3 CN 115470365 A 3

专利 一种基于深度度量学习的细粒度跨媒体检索方法

专利一种基于深度度量学习的细粒度跨媒体检索方法