(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210610980.1
(22)申请日 2022.05.31
(71)申请人 谙迈科技 (宁波) 有限公司
地址 315043 浙江省宁波市 鄞州区潘火街
道宁创科技中心1号2 901-1室
(72)发明人 徐涛 黄焯旭 韩军功 范振坤
雷超 程王婧
(74)专利代理 机构 嘉兴启帆专利代理事务所
(普通合伙) 33253
专利代理师 林鸳
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 40/20(2022.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)G06V 10/764(2022.01)
G06V 10/20(2022.01)
G06N 3/04(2006.01)
H04N 19/172(2014.01)
(54)发明名称
一种基于时序注意力模型的动作预测方法
(57)摘要
本发明公开了一种基于时序注意力模型的
动作预测方法, 基于深度学习, 搭建时序注意力
模型, 该模型通过self ‑attention模 块对来自视
频的图像帧数据进行特征解析, 并融合时序模
型, 递归式地整合时空上下文信息, 并通过自监
督方式进行推理并拟合, 从而可预测长期的未来
动作; 引入虚拟帧结构, 将复杂的预测任务简化
为针对虚拟帧的动作分类任务, 进而最大程度发
挥现有模型整合信息与分类的能力, 更有效地能
够解决现有算法检测准确性低、 预测时长短等问
题。
权利要求书3页 说明书8页 附图3页
CN 114913465 A
2022.08.16
CN 114913465 A
1.一种基于时序注意力模型的动作预测方法, 其特 征在于: 包括以下步骤:
1)视频数据采样: 选用带每帧对应动作标注 的稠密视频流作为训练视频, 在视频流数
据中采样一定帧数的图像;
2)图像预处理: 对步骤1)中采样的图像进行归一化处理, 再对图像进行缩放、 裁剪、 翻
转处理;
3)时序注意力模型的建立与训练: 时序注意力模型包括编码器、 解码器以及预测分类
器三部分;
①编码阶段, 利用transformer模型对图像的强大解析能力, 使用预训练Vision
Transformer(ViT)模型对帧图像进行编码; Vision Transformer模型包括Patch
Embedding(PE)模块、 Self ‑Attention(SA)模块、 前馈网络(F FN)模块以及残差连接几部分;
Self‑Attention模块通过注意力机制计算各个分块两两之间的权重并进一步进行特
征融合; 使用多层线性层将X映射到高维度空间, 分别表示 为:
Q=Wq*X
K=Wk*X
V=Wv*X
其中X为输入图像, Q是查询矩阵, K是关键字矩阵, V是值矩阵, Wq、 Wk、 Wv分别 表示Q、 K、 V
所对应的学习 参数, 通过Q、 K可计算得到各个分块两两之间的关系, 即注意力图Am, 再通过
注意力图Am与V即可计算得到每 个分块的权 重;
Am=SoftMax( (Q*K)/sqr t(D)
其中SoftMax指对于计算结果使用指数归一化, D表示Q、 K、 V的特征通道数, sqrt表示开
方操作;
Self‑Attention模块计算得到特 征F1可表示 为:
F1=Am*V;
②解码阶段: 解码器包括Multi ‑Head Self‑Attention模块、 虚拟帧结构以及时序 推理
结构;
I)Multi‑Head Self‑Attention模块: 解码过程中的输入为编码后的帧图像的高维特
征表示; 所计算的特 征为解码过程中帧与帧之间的时空上 下文信息;
Multi‑Head机制的引入如下:
Q=[Q1,Q2,. ..,Qh],Qh= Wq_h*X
K=[K1,K2,. ..,Kh],Kh= Wk_h*X
V=[V1,V 2,...,Vh],Vh= Wv_h*X
II)位置编码: 引入帧位置编码与注意力图编码, 以增强帧图像特征; 帧位置编码, 将帧
图像按先后顺序编号并通过 标准embed ding层编码为高维特 征Pe;
注意力图编码将步骤 ①计算得到的注意力图Am通过标准多层感知器进行编码, 得到高
维特征Ae,
则解码器的初始输入为:
Input=Pe+F e
其中, Fe为编码阶段的最终输出;
设定第一层Transformer的计算过程 为:权 利 要 求 书 1/3 页
2
CN 114913465 A
2TF_1=FFN(MHSA(Input))
MHSA是Multi ‑Head Self‑Attention模块的计算过程, FFN为前馈网络模块的计算过
程;
则第n层Transformer的计算过程 为:
TF_n=FFN(MHSA(TF_n ‑1+Ae))
如上所述, Ae为 来自第n‑1层Transformer的注意力图编码;
III)虚拟 帧结构, 将初始化的虚拟 帧等同于真实帧图像特征, 并根据预测目的赋予其
对应的位置编码, 再一同输送到多头注意力模型中进行解码;
定义该虚拟帧为Vf, 则引入虚拟帧结构后解码器初始输入为:
Input=Pe+Co ncatenate(F e,Vf)
其中Concatenate()为标准 拼接操作;
IV)时序推理结构:
将完整的T帧图像特征序列划分为互不重合的序列片段, 每个片段包含t帧序列, 再分
别输入到多头注意力模型中, 即多头注意力模型的输入序列长度被限制为t; 通过递归的推
理方式可以将完整的序列循环解码, 最终得到所需的解码特 征;
③预测分类器: 通过标准MLP将解码得到的帧图像特征的通道数映射为具体动作类别
数, 取通道最大值作为分类结果。
2.如权利要求1所述的一种基于时序注意力模型的动作预测方法, 其特征在于: 步骤1)
中的视频 数据采样, 具体包括以下步骤:
a.获取视频流的动作分割块: 根据每帧的动作标签将完整的视频流按一个完整动作分
割为不同的子视频流, 即视频数据中包含一个完整动作的多个子视频流, 截取其中一个子
视频流及其对应动作 作为所需预测的目标;
b.根据子视频流向前采样, 得到已观测到的数据, 用于输送到网络 中进行分析预测; 设
定所截取的子视频流从S时刻开始, 到E时刻结束, 设定模 型需要在动作发生前A秒进 行动作
预测, 所使用的数据为O秒内的视频流, 则截 取从St=E ‑O时刻到Et=S ‑A时刻的视频流作为
输入数据, 并从中采样T帧图像及对应的动作标注作为模型输入。
3.如权利要求1所述的一种基于时序注意力模型的动作预测方法, 其特征在于: 步骤2)
中图像预 处理时, 按帧图像RGB三个通道各自的均值与标准差对将图像进 行标准化操作, 即
将[0,255]范围的色彩值归一化到[0,1]范围; 图像缩放时, 将帧图像的长宽分别随机缩放
到[248,280]像素大小的范围; 图像裁剪时, 将帧图像随机裁剪到224 ×224像素大小; 并随
机地将帧图像进行 水平翻转。
4.如权利要求1所述的一种基于时序注意力模型的动作预测方法, 其特征在于: 所述
Patch Embedding模块将一张图像划分为大小一致的16 ×16分块, 并将分块内的像素压平;
即通过卷积核大小与步长均为16的二维卷积实现, 且包括一个层 级归一化模块Layer Norm,
即表示为:
PE(X)=LayerNorm(Conv(X))
其中Conv表示卷积核大小与步长均为16的二维卷积。
5.如权利要求1所述的一种基于时序注意力模型的动作 预测方法, 其特征在于: 所述前
馈网络模块由一个多层感知器构成, 多层感知器包括两个线性层线性层以及一个Relu激活权 利 要 求 书 2/3 页
3
CN 114913465 A
3
专利 一种基于时序注意力模型的动作预测方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:45:17上传分享