专利 基于视频图像的行人意图预测方法、装置及电子设备

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210323532.3 (22)申请日 2022.03.29 (65)同一申请的已公布的文献号申请公布号 CN 114639125 A (43)申请公布日 2022.06.17 (73)专利权人北京易航远智科技有限公司地址 100015 北京市朝阳区酒仙桥北路7号 66幢一层0 07 (72)发明人陈禹行　董铮　李雪　范圣印　 (74)专利代理机构北京庚致知识产权代理事务所(特殊普通合伙) 11807 专利代理师韩德凯 (51)Int.Cl. G06V 40/10(2022.01) G06V 20/40(2022.01)G06V 10/77(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 112016472 A,2020.12.01 CN 113807298 A,2021.12.17 CN 113392725 A,2021.09.14 CN 114120439 A,202 2.03.01 审查员曹宁 (54)发明名称基于视频图像的行人意图预测方法、装置及电子设备 (57)摘要本公开提供了一种基于视频图像的行人意图预测方法，包括：基于实时获取的视频图像数据中包含行人的连续帧，获取包含行人的视频图像序列及行人的观测轨迹序列；基于实时获取的本车速度数据，获取连续帧对应的本车速度序列；基于包含行人的视频图像序列，逐帧地提取视频图像特征，并获取视频图像序列的连续帧平均特征；基于行人的观测轨迹序列，获取行人的观测轨迹特征；基于连续帧对应的本车速度序列，获取本车速度特征；基于连续帧平均特征、观测轨迹特征及本车速度特征，获取模态融合特征；基于模态融合特征的语义信息，提取表征行人意图的意图特征。本公开还提供了一种行人意图预测装置、电子设备及可读存储介质。权利要求书3页说明书14页附图4页 CN 114639125 B 2022.09.16 CN 114639125 B 1.一种基于视频图像的行人意图预测方法，其特征在于，包括：基于实时获取的视频图像数据中包含行人的连续帧，获取包含行人的视频图像序列及行人的观测轨迹序列；基于实时获取的本车速度数据，获取所述连续帧对应的本车速度序列；基于包含行人的所述视频图像序列，逐帧地提取视频图像特征，并获取所述视频图像序列的连续帧平均特征；基于行人的观测轨迹序列，获取行人的观测轨迹特征；基于所述连续帧对应的本车速度序列，获取本车速度特征；基于所述连续帧平均特征、所述观测轨迹特征及所述本车速度特征，获取模态融合特征；以及至少基于所述模态融合特征的语义信息，提取表征行人意图的意图特征；其中，基于包含行人的所述视频图像序列，逐帧地提取行人的视频图像特征，获取所述视频图像序列的连续帧平均特征，包括：对当前帧的视频图像进行基于2D卷积的特征提取，以获取当前帧的特征图及其对应的特征张量；以及基于当前帧的特征图及当前帧的前一帧的特征图进行时序建模，以更新当前帧的特征图及其对应的特征张量，将更新后的当前帧的特征张量作为当前帧的视频图像特征；如果不存在当前帧的前一帧的特征图，以0值填充出当前帧的前一帧的特征图；对更新后的当前帧的特征图对应的特征张量进行基于全连接层的降维处理，获得当前帧的高维特征张量，并存储至高维特征张量序列之中；当所述高维特征张量序列的长度达到所述连续帧的帧数量值，对所述高维特征张量序列中的高维特征张量取平均，以获取所述连续帧平均特征；其中，基于所述连续帧平均特征、所述观测轨迹特征及所述本车速度特征，获取模态融合特征，包括：将所述连续帧平均特征、所述观测轨迹特征及所述本车速度特征进行相加，以获得所述模态融合特征。 2.根据权利要求1所述的基于视频图像的行人意图预测方法，其特征在于，还包括：删除当前帧的前一帧的特征图，保留当前帧的特征图。 3.根据权利要求1所述的基于视频图像的行人意图预测方法，其特征在于，如果所述高维特征张量序列中的最早时刻的序列元素为以0值填充出的特征图，则将其删除之后对所述高维特征张量序列取平均以获取所述连续帧平均特征。 4.根据权利要求1所述的基于视频图像的行人意图预测方法，其特征在于，基于当前帧的特征图及当前帧的前一帧的特征图进行时序建模，以更新当前帧的特征图，包括：将当前帧的前一帧的特征图的至少一部分通道与当前帧的特征图的相应通道进行关联，进行时序建模；以及将当前帧的前一帧的所述至少一部分通道的特征图更新至当前帧的特征图的相应位置，以获取更新后的当前帧的特征图。 5.根据权利要求4所述的基于视频图像的行人意图预测方法，其特征在于，所述对当前帧的视频图像进行基于2D卷积的特征提取，通过2D卷积骨干网络进行，所述2D卷积骨干网络包括一个或两个以上的2D卷积层。 6.根据权利要求5所述的基于视频图像的行人意图预测方法，其特征在于，所述2D卷积骨干网络为嵌入时序建模的2D卷积骨干网络，以使得所述2D卷积骨干网络能够执行所述时序建模。权　利　要　求　书 1/3 页 2 CN 114639125 B 27.根据权利要求6所述的基于视频图像的行人意图预测方法，其特征在于，所述2D卷积骨干网络被设置有限数量的时序建模位置，以平衡所述2D卷积骨干网络的性能与计算量。 8.根据权利要求1所述的基于视频图像的行人意图预测方法，其特征在于，所述基于行人的观测轨迹序列，获取行人的观测轨迹特征，包括：使用全连接层对所述观测轨迹序列进行增强处理，获取增强后的输入轨迹集合；将所述增强后的输入轨迹集合在时间维度进行拼接，获得输入轨迹张量；将所述输入轨迹张量输入至1D卷积网络，提取局部短期特征；以及将所述局部短期特征输入至多层感知机进行编码处理，以获得全局轨迹特征。 9.根据权利要求1所述的基于视频图像的行人意图预测方法，其特征在于，所述基于所述连续帧对应的本车速度序列，获取本车速度特征，包括：将所述本车速度序列在时间维度进行拼接，获得输入速度张量；以及将所述输入速度张量输入至多层感知机进行编码处理，以获得本车速度特征。 10.根据权利要求1所述的基于视频图像的行人意图预测方法，其特征在于，所述基于所述模态融合特征的语义信息，提取表征行人意图的意图特征，包括：将所述模态融合特征输入至全连接层，并映射为二维张量，以表征行人的过街意图类别与不过街意图类别。 11.一种基于视频图像的行人意图预测装置，其特征在于，包括：视频图像序列获取模块，所述视频图像序列获取模块基于实时获取的视频图像数据中包含行人的连续帧，获取包含行人的视频图像序列；行人观测轨迹序列获取模块，所述观测轨迹序列获取模块基于实时获取的视频图像数据中包含行人的连续帧获取行人的观测轨迹序列；本车速度序列获取模块，所述本车速度序列获取模块基于实时获取的本车速度数据，获取所述连续帧对应的本车速度序列；图像特征获取模块基于包含行人的所述视频图像序列，逐帧地提取视频图像特征，并获取所述视频图像序列的连续帧平均特征；行人观测轨迹特征获取模块，所述行人观测轨迹特征获取模块基于行人的观测轨迹序列，获取行人的观测轨迹特征；本车速度特征获取模块，所述本车速度特征获取模块基于所述连续帧对应的本车速度序列，获取本车速度特征；多模态特征融合模块，所述多模态特征融合模块基于所述连续帧平均特征、所述观测轨迹特征及所述本车速度特征，获取模态融合特征；以及行人意图获取模块，所述行人意图获取模块至少基于所述模态融合特征的语义信息，提取表征行人意图的意图特征；其中，基于包含行人的所述视频图像序列，逐帧地提取行人的视频图像特征，获取所述视频图像序列的连续帧平均特征，包括：对当前帧的视频图像进行基于2D卷积的特征提取，以获取当前帧的特征图及其对应的特征张量；以及基于当前帧的特征图及当前帧的前一帧的特征图进行时序建模，以更新当前帧的特征图及其对应的特征张量，将更新后的当前帧的特征张量作为当前帧的视频图像特征；如果不存在当前帧的前一帧的特征图，以0值填充出当前帧的前一帧的特征图；对更新后的当前帧的特征图对应的特征张量进行基于全连接权　利　要　求　书 2/3 页 3 CN 114639125 B 3

专利 基于视频图像的行人意图预测方法、装置及电子设备

专利基于视频图像的行人意图预测方法、装置及电子设备