(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210347649.5
(22)申请日 2022.04.01
(71)申请人 浙江大学
地址 310058 浙江省杭州市西湖区余杭塘
路866号
(72)发明人 张昊卓 于慧敏
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 邱启旺
(51)Int.Cl.
G06V 20/00(2022.01)
G06V 10/25(2022.01)
G06V 10/80(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于运动特征和外观特征的视频目标检测
及域适应方法
(57)摘要
本发明公开了一种基于运动特征和外观特
征的视频目标检测及域适应方法。 该方法首先基
于目标帧的多帧图像提取运动特征和增强的外
观特征, 随后融合外观与运动两种特征获得聚合
特征并用于感兴趣目标的检测, 并以此从视频中
自动抓取存在感兴趣目标的视频帧并确定其所
处位置。 本发 明还包括了视频目标检测的域适应
方法, 该域适应方法首先以运动特征预测运动空
间注意力, 使聚合特征更加关注与场景关联性较
弱的运动前景区域, 随后通过对聚合特征进行对
抗训练、 基于实例特征进行原型构建与特征对齐
来削弱特征中所包含的特定场景信息, 从而提升
视频目标检测模型在缺失目标域正样本训练数
据的场景 下的性能表现。
权利要求书2页 说明书8页 附图3页
CN 114863249 A
2022.08.05
CN 114863249 A
1.一种基于运动特征和外观特征的视频目标检测方法, 其特征在于, 具体包括如下步
骤:
(1)将输入的任意视频转化为视频帧构成的图片集合, 对其中任意一张目标视频帧I进
行感兴趣目标的检测, 抽取目标视频帧I与其相邻的2p张视频帧, 合计2p+1张视频帧, 并进
行视频帧I的目标检测;
(2)使用骨干网络提取 各帧的外观特 征, 获得2p+1个外观特 征;
(3)将每一张相邻帧In的外观特征An与目标视频帧I的外观特征A输入运动特征提取网
络Em以提取对应的运动特征Mn, 同时运动特征提取网络Em输出相应的预测运动的像素级运
动信息图fn;
(4)所述像素级运动信息图fn用于将每一张相邻帧In的外观特征An向目标视频帧I的外
观特征A对齐以获得空间对齐的外观特 征A’n;
(5)使用外观特征聚合网络Eaa对外观特征进行融合获得外观特征Fa, 将外观特征Fa输入
外观特征精炼网络Ra进行哈达 玛积, 获得精炼后的外观特 征F’a;
(6)使用运动特征聚合网络Eam对运动特征Mn进行融合获取运动特征Fm, 将运动特征Mn输
入运动特 征精炼网络Rm进行哈达 玛积, 获得精炼后的运动特 征F’m
(7)将步骤(5)获得的精炼后的外观特征F ’a与步骤(6)获得的精炼后的运动特征F ’m输
入特征聚合网络 Eagg, 获取一个与输入的两个特 征尺寸一致的聚合特 征Fagg;
(8)将聚合特征Fagg输入目标检测网络H获得目标的边框预测结果B及其相应的分类置
信度C;
(9)对视频目标检测网络进行训练; 对训练好的视频目标检测网络进行测试, 若分类置
信度C的最大值Cmax若大于预设阈值则判定目标视频帧I中存在感兴趣目标并输出目标的边
框预测结果B, 否则判定该帧中无感兴趣目标存在。
2.根据权利要求1所述的基于运动特征和外观特征的视频目标检测方法, 其特征在于,
所述骨干网络为ResNet ‑50、 ResNet ‑101或VGG‑16网络。
3.根据权利要求1所述的基于运动特征和外观特征的视频目标检测方法, 其特征在于,
所述的步骤(3)中的运动特 征提取网络 Em可以是当前任何能够实现如下映射的神经网络:
Mn, fn=Em(A, An)
其中运动信息图fn可被用于如下的某相邻帧外观特征An向需要进行目标检测的目标帧
外观特征A的空间对齐:
A′n=Align(An, fn)
其中空间对齐操作Align( ·)可以是当前任何能够完成特征像素空间位置调整操作的
映射。
4.根据权利要求1所述的基于运动特征和外观特征的视频目标检测方法, 其特征在于,
对视频目标检测网络进行训练的过程具体为:
计算置信度损失
与边框回归损失
将置信度预测结果C输入协同分类网络S, 获得目标帧I是否含有感兴趣目标的预测可
能性P;
根据目标帧I是否真实存在感兴趣目标的标签y*并结合协同分类网络输出的预测可能
性P计算协同分类损失LCLS;权 利 要 求 书 1/2 页
2
CN 114863249 A
2利用上述计算得到的置信度损失
边框回归损失
以及协同分类损失LCLS优化视
频目标检测网络 。
5.根据权利要求4所述的基于运动特征和外观特征的视频目标检测方法, 其特征在于,
所述协同分类损失LCLS为一种二分类损失。
6.一种适用于权利要求1~5任一项所述的基于运动特征和外观特征的视频目标检测
的域适应方法, 其特 征在于, 具体包括如下步骤:
(1)将运动特征精炼网络Rm输出的运动空间注意力Attm与聚合特征Fagg进行哈达玛积获
得优化后的聚合特 征F’agg;
(2)将视频目标检测网络中的聚合特征Fagg替换为优化后的聚合特征F ’agg; 对调整优化
后的视频目标检测网络进行训练; 再对训练好的视频目标检测网络进行测试。
7.根据权利要求6所述的基于运动特征和外观特征的视频目标检测的域适应方法, 其
特征在于, 对调整优化后的视频目标检测网络进行训练的过程具体为:
对聚合特 征F’agg进行对抗方式的域 适应, 计算获得对抗学习损失Ladv;
利用置信度损失
边框回归损失
协同分类损失LCLS以及对抗学习损失Ladv训练
调整优化后的视频目标检测网络, 获得初步训练的视频目标检测网络;
将用于预测分类置信度C的特征在空间维度上完全拆解为实例级别特征, 并根据是否
对应感兴趣目标区域、 分类置信度细分为包括分类置信度较高且对应感兴趣目标tp, 分类
置信度较高但对应背景fp, 分类置信度较低且对应背景tn, 分类置信度较低但对应感兴趣
目标fn在内的类别;
以属于分类置信度较高且对应感兴趣目标tp和分类置信度较低且对应背景tn的实例
特征分别构建有代 表性的正原型 特征Pp和负原型 特征Pn;
计算损失函数Lp, 该函数是目前任意可拉近Pp与fn中实例特征距离并推远Pp与fp中实
例特征距离的函数;
计算损失函数Ln, 该函数是目前任意可拉近Pn与fp中实例特征距离并推远Pn与fn中实
例特征距离的函数;
在初步训练的视频目标检测网络的基础上, 通过置信度损失
边框回归损失
协同分类损失LCLS、 对抗学习损失Ladv、 损失函数Lp和损失函数Ln, 对该模型进行进一步调优
训练以获得最终的视频目标检测网络 。
8.根据权利要求7所述的基于运动特征和外观特征的视频目标检测的域适应方法, 其
特征在于, 所述对抗方式的域适应为一种基于梯度反转层GRL以及域分类任务的域适应方
法。
9.一种电子设备, 包括存储器和处理器, 其中, 所述存储器与所述处理器耦接; 其中, 所
述存储器用于存储程序数据, 所述处理器用于执行所述程序数据以实现上述权利要求1 ‑5
任一项所述的基于运动特征和外观特征的视频目标检测方法和权利要求6 ‑8任一项所述的
基于运动特 征和外观特 征的视频目标检测的域 适应方法。
10.一种计算机可读存储介质, 其上存储有计算机程序, 其中, 所述程序被处理器执行
时实现如权利要求 1‑5任一项所述的基于运动特征和外观特征的视频目标检测方法和权利
要求6‑8任一项所述的基于运动特 征和外观特 征的视频目标检测的域 适应方法。权 利 要 求 书 2/2 页
3
CN 114863249 A
3
专利 基于运动特征和外观特征的视频目标检测及域适应方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:38:35上传分享