安全公司报告
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210976992.6 (22)申请日 2022.08.15 (65)同一申请的已公布的文献号 申请公布号 CN 115063640 A (43)申请公布日 2022.09.16 (73)专利权人 阿里巴巴 (中国) 有限公司 地址 310023 浙江省杭州市余杭区五常街 道文一西路969号3幢5层5 54室 (72)发明人 袁杭杰 蒋建文 吕逸良 赵德丽  (74)专利代理 机构 北京太合九思知识产权代理 有限公司 1 1610 专利代理师 孙明子 刘戈 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/80(2022.01)G06V 10/774(2022.01) G06N 20/00(2019.01) 审查员 李浩 (54)发明名称 交互检测方法、 交互检测模 型的预训练方法 及设备 (57)摘要 本发明实施例提供了一种交互检测方法、 交 互检测模型的预训练方法及设备; 方法包括: 获 取待检测图像以及用于对待检测图像进行交互 检测的多个标签, 多个标签包括多个主体标签、 多个客体标签以及多个交互标签; 基于待检测图 像和多个标签, 确定跨模态融合特征; 基于跨模 态融合特征分别进行主体检测和客体检测, 获得 主体检测信息和客体检测信息; 基于主体检测信 息和客体检测 信息进行关系检测, 获得主体与客 体之间的至少一个预测交互关系。 本实施例中, 基于跨模态融合特征实现了平行主体检测, 提高 了主体和客体的检测准确性; 并基于主体和客体 的检测信息来确定预测交互关系, 实现了与主体 检测相互独立的交互检测, 有利于提高交互检测 的准确可靠性。 权利要求书3页 说明书26页 附图7页 CN 115063640 B 2022.12.16 CN 115063640 B 1.一种交 互检测方法, 其特 征在于, 包括: 获取待检测图像以及用于对所述待检测图像进行交互检测的多个标签, 所述多个标签 包括多个主体标签、 多个客体标签以及多个交 互标签; 基于所述待检测图像和所述多个标签, 确定跨模态融合特 征; 基于所述跨模态融合特征分别进行主体检测和客体检测, 获得主体检测信 息和客体检 测信息; 基于所述主体检测信 息和客体检测信 息进行关系检测, 获得主体与客体之间的至少一 个预测交 互关系; 基于所述主体检测信 息和客体检测信 息进行关系检测, 获得主体与客体之间的至少一 个预测交 互关系, 包括: 获取所述主体检测信息相对应的主体表示特征和所述客体检测信息相对应的客体表 示特征; 对所述主体表示特 征和所述 客体表示特 征进行融合, 获得关系查询特 征; 对所述关系查询特 征进行解码, 获得主体和客体之间的至少一个预测交 互关系。 2.根据权利要求1所述的方法, 其特征在于, 基于所述待检测图像和所述多个标签, 确 定跨模态融合特 征, 包括: 获取与所述待检测图像相对应的图像特 征; 对所述多个标签进行序列化处 理, 获得标签序列; 确定与所述标签序列相对应的标签序列特 征; 基于所述图像特 征和标签序列特 征, 确定所述 跨模态融合特 征。 3.根据权利要求2所述的方法, 其特征在于, 基于所述图像特征和标签序列特征, 确定 所述跨模态融合特 征, 包括: 将所述标签序列特 征和图像特 征按照序列维度进行组合, 获得跨模态特 征; 对所述跨模态特 征进行融合处 理, 获得所述跨模态融合特 征。 4.根据权利要求1所述的方法, 其特征在于, 基于所述跨模态融合特征分别进行主体检 测和客体检测, 获得主体 检测信息和客体 检测信息, 包括: 获取用于进行主体检测操作的主体查询向量和用于进行客体检测操作的客体查询向 量; 利用所述主体查询向量对所述跨模态融合特征进行主体检测操作, 获得主体检测信 息; 利用所述客体查询向量对所述跨模态融合特征进行客体检测操作, 获得客体检测信 息。 5.根据权利要求1 ‑4任一项所述的方法, 其特征在于, 在获得主体与客体之间的至少一 个预测交 互关系之后, 所述方法还 包括: 确定与所述待检测图像相对应的场景信息; 基于所述至少一个预测交互关系, 识别在所述场景信 息所对应的环境中是否存在预设 行为; 若存在预设行为, 则生成告警提 示信息。 6.根据权利要求1 ‑4任一项所述的方法, 其特征在于, 在获得主体与客体之间的至少一权 利 要 求 书 1/3 页 2 CN 115063640 B 2个预测交 互关系之后, 所述方法还 包括: 获取预设图像库, 所述预设图像库中包括多个参考图像, 每个参考图像对应有参考主 体信息、 参 考客体信息以及主体与客体之间的参 考交互关系; 基于所述待检测图像所对应的主体检测信息、 客体检测信息和至少一个预测交互关 系, 在所述预设图像库中进行搜索匹配, 获得与所述待检测图像相匹配的目标图像。 7.一种交互检测模型的预训练方法, 其特征在于, 所述交互检测模型用于执行权利要 求1‑权利要求6中任意 一项所述的交 互检测方法, 所述方法包括: 获取样本图像以及与 所述样本图像相对应的多个样本标签, 所述多个样本标签包括与 所述样本图像相关的多个第一样本标签以及通过对所述第一样本标签进行扩展得到的多 个第二样本标签, 其中, 所述第一样本标签和所述第二样 本标签均包括样本主体标签、 样本 客体标签和样本交 互标签; 基于所述样本图像和所述多个样本标签, 确定跨模态融合特 征; 基于所述跨模态融合特征和多个样本标签进行模型的预训练, 获得用于进行交互检测 的交互检测模型, 所述交 互检测模型为机器学习模型。 8.根据权利要求7所述的方法, 其特征在于, 获取与所述样本图像相对应的多个样本标 签, 包括: 获取所述样本图像所对应的图像集 合, 所述图像集 合中包括多张样本图像; 确定所述图像集 合中各样本图像的标签为第一样本标签; 对所述第一样本标签进行扩展, 获得对应的第二样本标签; 所述样本 图像相对应的多个样本标签包括所确定的第一样本标签及其对应的第二样 本标签。 9.根据权利要求8所述的方法, 其特征在于, 在获得多个第二样本标签之后, 所述方法 还包括: 获取所述第二样本标签与所对应的第一样本标签之间的相似度; 在相似度大于或等于预设阈值时, 则将所述第二样本标签确定为伪样本标签。 10.根据权利要求7所述的方法, 其特征在于, 在获得用于进行交互检测的交互检测模 型之后, 所述方法还 包括: 获取待检测图像以及用于对所述待检测图像进行交互检测的多个标签, 所述多个标签 包括多个主体标签、 多个客体标签以及多个交 互标签; 利用所述交互检测模型对所述待检测图像和多个标签进行交互检测, 获得所述待检测 图像中的主体与客体之间的至少一个预测交 互关系; 确定所述待检测图像中的主体与客体之间的至少一个样本交互关系, 所述样本交互关 系的数量与所述预测交 互关系的数量相同、 且一 一对应; 基于所述预测交互关系 对相对应的样本交互关系 进行数据平滑 处理, 获得用于对交互 检测模型进行训练的处理后交互关系, 所述处理后交互关系的置信度低于所述样本交互关 系的置信度。 11.根据权利要求10所述的方法, 其特征在于, 基于所述预测交互关系 对相对应的样本 交互关系进行 数据平滑处理, 获得用于对交 互检测模型进行训练的处 理后交互关系, 包括: 获取所述预测交 互关系与相对应的样本交 互关系之间的定位 准确度;权 利 要 求 书 2/3 页 3 CN 115063640 B 3

.PDF文档 专利 交互检测方法、交互检测模型的预训练方法及设备

文档预览
中文文档 37 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共37页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 交互检测方法、交互检测模型的预训练方法及设备 第 1 页 专利 交互检测方法、交互检测模型的预训练方法及设备 第 2 页 专利 交互检测方法、交互检测模型的预训练方法及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:13:23上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。