安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211399650.9 (22)申请日 2022.11.09 (71)申请人 南京码极客科技有限公司 地址 210000 江苏省南京市浦口区新北路1 号江北国际智谷B栋 5层 (72)发明人 姚亚洲 黄丹 沈复民 孙泽人  申恒涛  (74)专利代理 机构 安徽宏铎知识产权代理事务 所(普通合伙) 3425 0 专利代理师 菅秀君 (51)Int.Cl. G06F 16/432(2019.01) G06F 16/483(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 一种基于深度度量学习的细粒度跨媒体检 索方法 (57)摘要 本发明公开一种基于深度度量学习的细粒 度跨媒体检索方法, 包括S1.首先, 将一组多媒体 实例混合输入到同一深度网络中提取特征; S2. 通过线性层将不同媒体的特征映射到嵌入空间 中进行度量学习; S3.使用跨媒体深度度量学习 方法来同时学习细粒度语义相关性和跨媒体语 义相关性; 本发 明通过线性层将不同的媒体特征 直接映射到嵌入空间中进行相似性度量; 并且为 了有效度量不同媒体特征之间的相似性, 采用跨 媒体元组度量学习方法来度量不同媒体间的跨 媒体相关性, 并且采用跨媒体代理度量学习方法 来度量各个媒体内的细粒度语义相关性; 对比传 统的细粒度跨媒体网络结构, 具有更低的模型复 杂度。 权利要求书3页 说明书8页 附图2页 CN 115470365 A 2022.12.13 CN 115470365 A 1.一种基于深度 度量学习的细粒度跨 媒体检索方法, 其特 征在于, 包括如下步骤: S1.首先, 将一组多媒体实例混合输入到同一深度网络中提取 特征; S11.通过将深度网络的最后一层修改为线性层来将不同的媒体特征映射到嵌入空间 中; S12.通过跨媒体深度度量方法计算嵌入空间中数据与代理间的细粒度损失和数据之 间的跨媒体损失; S2.通过线性层将不同媒体的特 征映射到嵌入空间中进行度量学习; S21.将图像、 视频、 音频和文本四种不同媒体的特征视为一个整体, 对正样本和 负样本 进行采样, 通过拉进正样本并远离负 样本, 将属于同一细粒度子类别的数据聚集在一 起; S22.为了 防止模型训练过程中发生拟合, 采用L2范数的平方作为距离度量函数, 从而 来推断出跨 媒体元组损失; S23.对跨 媒体元组损失进行梯度优化; S3.使用跨媒体深度度量学习方法来同时学习细粒度语义相关性和跨媒体语义相关 性; S31.通过度量相同细粒度子类别数据和代理之间的距离来找到该类别的代理点; S32.使用跨 媒体代理损失对代理点和每 个训练数据进行约束; S33.通过优化跨媒体代 理损失促进正样本接近代 理点来减小类 内差异, 促进负样本远 离代理点增 加类间差异。 2.根据权利要求1所述的一种基于深度度量学习的细粒度跨媒体检索方法, 其特征在 于, 在S11中, 通过将深度网络的最后一层softmax层修改为线性层来将不同的媒体特征映 射到嵌入空间中; 线性层的输出表示为 , 其中  d为嵌 入空间的维度, 度量学习方法为: ; 其中a为当前计算的数据, p为正样本, n为负样本, c为当前计算的代理, 为正样本数 据集合, 为负样本数据集合, 为跨媒体元组度量学习函数, 为跨媒体代理度量学 习函数。 3.根据权利要求2所述的一种基于深度度量学习的细粒度跨媒体检索方法, 其特征在 于, 在S2中, 不同媒体的特征包含四种媒体数据, 其中每种媒体数据表示为 , 表 示第i个数据的特征向量, 表示标签; 当对第i个数据计算跨媒体元组损失, 则输入数据 为 , 将嵌入空间中所有与标签 相同的数据标记为正样本 , 并将嵌入空间中所有 与标签 不同的数据标记为负样本 ; 然后同时度量   与正样本的距离   和 与负样本之间的距离 , 跨媒体元组度量学习为当前计算数据与正样本距 离近、 与负样本距离远, 表示 为:权 利 要 求 书 1/3 页 2 CN 115470365 A 2; 其中, 表示正样本对和负 样本对之间的边距。 4.根据权利要求3所述的一种基于深度度量学习的细粒度跨媒体检索方法, 其特征在 于, 采用L2范 数的平方来作为距离度量 函数 , 跨媒体元组损失可以定义 为: ; 该损失梯度优化过程如下: ; ; 。 5.根据权利要求4所述的一种基于深度度量学习的细粒度跨媒体检索方法, 其特征在 于, 在S3中, 对于嵌入空间中的每一个数据 , 确定每个类别代 理P的特征向量表示, 通过度量相同细粒度子类别数据和代理之间的距离来找到该类别的代理点, 可表示 为: ; 其中使用L2范 数的平方作来度量代理点和数据之间的距离, 该距离度量表示 为: 。 6.根据权利要求5所述的一种基于深度度量学习的细粒度跨媒体检索方法, 其特征在 于, 在S32中, 将嵌入空间中的所有数据分为正样本集合 和负样本集合 , 使用跨媒 体代理损失来约束代理点和每 个训练数据, 损失如下: ; 其中P表示当前计算的代理点, P表示所有代理的集合, 表示所有正代理的集合, 表示人工定义的参数, 表示细粒度子类别之间的边距, 表示余弦 相似度。 7.根据权利要求6所述的一种基于深度度量学习的细粒度跨媒体检索方法, 其特征在权 利 要 求 书 2/3 页 3 CN 115470365 A 3

.PDF文档 专利 一种基于深度度量学习的细粒度跨媒体检索方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度度量学习的细粒度跨媒体检索方法 第 1 页 专利 一种基于深度度量学习的细粒度跨媒体检索方法 第 2 页 专利 一种基于深度度量学习的细粒度跨媒体检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:41:35上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。