(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210323532.3
(22)申请日 2022.03.29
(65)同一申请的已公布的文献号
申请公布号 CN 114639125 A
(43)申请公布日 2022.06.17
(73)专利权人 北京易航远智科技有限公司
地址 100015 北京市朝阳区酒仙桥北路7号
66幢一层0 07
(72)发明人 陈禹行 董铮 李雪 范圣印
(74)专利代理 机构 北京庚致知识产权代理事务
所(特殊普通 合伙) 11807
专利代理师 韩德凯
(51)Int.Cl.
G06V 40/10(2022.01)
G06V 20/40(2022.01)G06V 10/77(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 112016472 A,2020.12.01
CN 113807298 A,2021.12.17
CN 113392725 A,2021.09.14
CN 114120439 A,202 2.03.01
审查员 曹宁
(54)发明名称
基于视频图像的行人意图预测方法、 装置及
电子设备
(57)摘要
本公开提供了一种基于视频图像的行人意
图预测方法, 包括: 基于实时获取的视频图像数
据中包含行人的连续帧, 获取包含 行人的视频图
像序列及行人的观测轨迹序列; 基于实时获取的
本车速度数据, 获取连续帧对应的本车速度序
列; 基于包含行人的视频图像序列, 逐帧地提取
视频图像特征, 并获取视频图像序列的连续帧平
均特征; 基于行人的观测轨迹序列, 获取行人的
观测轨迹特征; 基于连续帧对应的本车速度序
列, 获取本 车速度特征; 基于连续帧平均特征、 观
测轨迹特征及本车速度特征, 获取模态融合特
征; 基于模态融合特征的语义信息, 提取表征行
人意图的意图特征。 本公开还提供了一种行人意
图预测装置、 电子设备及可读存 储介质。
权利要求书3页 说明书14页 附图4页
CN 114639125 B
2022.09.16
CN 114639125 B
1.一种基于 视频图像的行 人意图预测方法, 其特 征在于, 包括:
基于实时获取的视频图像数据中包含行人的连续帧, 获取包含行人的视频图像序列及
行人的观测轨迹序列; 基于实时获取 的本车速度数据, 获取所述连续帧对应的本车速度序
列;
基于包含行人的所述视频图像序列, 逐帧地提取视频图像特征, 并获取所述视频图像
序列的连续帧平均特征; 基于行人的观测轨迹序列, 获取行人的观测轨迹特征; 基于所述连
续帧对应的本车速度 序列, 获取本车速度特 征;
基于所述连续帧平均特征、 所述观测轨迹特征及所述本车速度特征, 获取模态融合特
征; 以及
至少基于所述模态融合特 征的语义信息, 提取表征 行人意图的意图特 征;
其中, 基于包含行人的所述视频图像序列, 逐帧地提取行人的视频图像特征, 获取所述
视频图像序列的连续帧平均特征, 包括: 对当前帧的视频图像进 行基于2D卷积的特征提取,
以获取当前帧的特征图及其对应的特征张量; 以及基于 当前帧的特征图及当前帧的前一帧
的特征图进行时序建模, 以更新当前帧的特征图及其对应的特征张量, 将更新后的当前帧
的特征张量作为当前帧的视频图像特征; 如果不存在当前帧的前一帧的特征图, 以0值填充
出当前帧的前一帧的特征图; 对更新后的当前帧的特征图对应的特征张量进 行基于全连接
层的降维处理, 获得当前帧的高维特征张量, 并存储至高维特征张量序列之中; 当所述高维
特征张量序列的长度达到所述连续帧的帧数量值, 对所述高维特征张量序列中的高维特征
张量取平均, 以获取 所述连续帧平均特 征;
其中, 基于所述连续帧平均特征、 所述观测轨迹特征及所述本车速度 特征, 获取模态融
合特征, 包括: 将所述连续帧平均特征、 所述观测轨迹特征及所述本车速度特征进行相加,
以获得所述模态融合特 征。
2.根据权利要求1所述的基于 视频图像的行 人意图预测方法, 其特 征在于, 还 包括:
删除当前帧的前一帧的特 征图, 保留当前帧的特 征图。
3.根据权利要求1所述的基于视频图像的行人意图预测方法, 其特征在于, 如果所述高
维特征张量序列中的最早时刻的序列元素为以0值填充出 的特征图, 则将其删除之后对所
述高维特 征张量序列取平均以获取 所述连续帧平均特 征。
4.根据权利要求1所述的基于视频图像的行人意图预测方法, 其特征在于, 基于当前帧
的特征图及当前帧的前一帧的特 征图进行时序建模, 以更新当前帧的特 征图, 包括:
将当前帧的前一帧的特征图的至少一部分通道与当前帧的特征图的相应通道进行关
联, 进行时序建模; 以及
将当前帧的前一帧的所述至少一部分通道的特征图更新至当前帧的特征图的相应位
置, 以获取 更新后的当前帧的特 征图。
5.根据权利要求4所述的基于视频图像的行人意图预测方法, 其特征在于, 所述对当前
帧的视频图像进行基于2D卷积的特征提取, 通过2D卷积骨干网络进行, 所述2D卷积骨干网
络包括一个或两个以上的2D卷积层。
6.根据权利要求5所述的基于视频图像的行人意图预测方法, 其特征在于, 所述2D卷积
骨干网络为嵌入时序建模的2D卷积骨干网络, 以使 得所述2D卷积骨干网络能够执行所述时
序建模。权 利 要 求 书 1/3 页
2
CN 114639125 B
27.根据权利要求6所述的基于视频图像的行人意图预测方法, 其特征在于, 所述2D卷积
骨干网络被设置有限数量的时序建模位置, 以平衡所述2D卷积骨干网络的性能与计算 量。
8.根据权利要求1所述的基于视频图像的行人意图预测方法, 其特征在于, 所述基于行
人的观测轨 迹序列, 获取 行人的观测轨 迹特征, 包括:
使用全连接层对所述观测轨 迹序列进行增强处 理, 获取增强后的输入轨 迹集合;
将所述增强后的输入轨 迹集合在时间维度进行拼接, 获得输入轨 迹张量;
将所述输入轨 迹张量输入至1D卷积网络, 提取局部短期特 征; 以及
将所述局部短期特 征输入至多层感知机进行编码处 理, 以获得全局轨 迹特征。
9.根据权利要求1所述的基于视频图像的行人意图预测方法, 其特征在于, 所述基于所
述连续帧对应的本车速度 序列, 获取本车速度特 征, 包括:
将所述本车速度 序列在时间维度进行拼接, 获得输入速度张量; 以及
将所述输入速度张量输入至多层感知机进行编码处 理, 以获得本车速度特 征。
10.根据权利要求1所述的基于视频图像的行人意图预测方法, 其特征在于, 所述基于
所述模态融合特 征的语义信息, 提取表征 行人意图的意图特 征, 包括:
将所述模态融合特征输入至全连接层, 并映射为二维张量, 以表征行人的过街意图类
别与不过街 意图类别。
11.一种基于 视频图像的行 人意图预测装置, 其特 征在于, 包括:
视频图像序列获取模块, 所述视频图像序列获取模块基于实时获取的视频图像数据中
包含行人的连续帧, 获取包 含行人的视频图像序列;
行人观测轨迹序列获取模块, 所述观测轨迹序列获取模块基于实时获取的视频图像数
据中包含行人的连续帧获取 行人的观测轨 迹序列;
本车速度序列获取模块, 所述本车速度序列获取模块基于实时获取的本车速度数据,
获取所述连续帧对应的本车速度 序列;
图像特征获取模块基于包含行人的所述视频图像序列, 逐帧地提取视频图像特征, 并
获取所述视频图像序列的连续帧平均特 征;
行人观测轨迹特征获取模块, 所述行人观测轨迹特征获取模块基于行人的观测轨迹序
列, 获取行人的观测轨 迹特征;
本车速度 特征获取模块, 所述本车速度特征获取模块基于所述连续帧对应的本车速度
序列, 获取本车速度特 征;
多模态特征融合模块, 所述多模态特征融合模块基于所述连续帧平均特征、 所述观测
轨迹特征及所述本车速度特 征, 获取模态融合特 征; 以及
行人意图获取模块, 所述行人意图获取模块至少基于所述模态融合特征的语义信息,
提取表征 行人意图的意图特 征;
其中, 基于包含行人的所述视频图像序列, 逐帧地提取行人的视频图像特征, 获取所述
视频图像序列的连续帧平均特征, 包括: 对当前帧的视频图像进 行基于2D卷积的特征提取,
以获取当前帧的特征图及其对应的特征张量; 以及基于 当前帧的特征图及当前帧的前一帧
的特征图进行时序建模, 以更新当前帧的特征图及其对应的特征张量, 将更新后的当前帧
的特征张量作为当前帧的视频图像特征; 如果不存在当前帧的前一帧的特征图, 以0值填充
出当前帧的前一帧的特征图; 对更新后的当前帧的特征图对应的特征张量进 行基于全连接权 利 要 求 书 2/3 页
3
CN 114639125 B
3
专利 基于视频图像的行人意图预测方法、装置及电子设备
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:38:27上传分享