专利 一种基于时序注意力模型的动作预测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210610980.1 (22)申请日 2022.05.31 (71)申请人谙迈科技（宁波）有限公司地址 315043 浙江省宁波市鄞州区潘火街道宁创科技中心1号2 901-1室 (72)发明人徐涛　黄焯旭　韩军功　范振坤　雷超　程王婧　 (74)专利代理机构嘉兴启帆专利代理事务所 (普通合伙) 33253 专利代理师林鸳 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/20(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01)G06V 10/764(2022.01) G06V 10/20(2022.01) G06N 3/04(2006.01) H04N 19/172(2014.01) (54)发明名称一种基于时序注意力模型的动作预测方法 (57)摘要本发明公开了一种基于时序注意力模型的动作预测方法，基于深度学习，搭建时序注意力模型，该模型通过self ‑attention模块对来自视频的图像帧数据进行特征解析，并融合时序模型，递归式地整合时空上下文信息，并通过自监督方式进行推理并拟合，从而可预测长期的未来动作；引入虚拟帧结构，将复杂的预测任务简化为针对虚拟帧的动作分类任务，进而最大程度发挥现有模型整合信息与分类的能力，更有效地能够解决现有算法检测准确性低、预测时长短等问题。权利要求书3页说明书8页附图3页 CN 114913465 A 2022.08.16 CN 114913465 A 1.一种基于时序注意力模型的动作预测方法，其特征在于：包括以下步骤： 1)视频数据采样：选用带每帧对应动作标注的稠密视频流作为训练视频，在视频流数据中采样一定帧数的图像； 2)图像预处理：对步骤1)中采样的图像进行归一化处理，再对图像进行缩放、裁剪、翻转处理； 3)时序注意力模型的建立与训练：时序注意力模型包括编码器、解码器以及预测分类器三部分； ①编码阶段，利用transformer模型对图像的强大解析能力，使用预训练Vision Transformer(ViT)模型对帧图像进行编码； Vision Transformer模型包括Patch Embedding(PE)模块、 Self ‑Attention(SA)模块、前馈网络(F FN)模块以及残差连接几部分； Self‑Attention模块通过注意力机制计算各个分块两两之间的权重并进一步进行特征融合；使用多层线性层将X映射到高维度空间，分别表示为： Q＝Wq*X K＝Wk*X V＝Wv*X 其中X为输入图像， Q是查询矩阵， K是关键字矩阵， V是值矩阵， Wq、 Wk、 Wv分别表示Q、 K、 V 所对应的学习参数，通过Q、 K可计算得到各个分块两两之间的关系，即注意力图Am，再通过注意力图Am与V即可计算得到每个分块的权重； Am＝SoftMax( (Q*K)/sqr t(D) 其中SoftMax指对于计算结果使用指数归一化， D表示Q、 K、 V的特征通道数， sqrt表示开方操作； Self‑Attention模块计算得到特征F1可表示为： F1＝Am*V； ②解码阶段：解码器包括Multi ‑Head Self‑Attention模块、虚拟帧结构以及时序推理结构； I)Multi‑Head Self‑Attention模块：解码过程中的输入为编码后的帧图像的高维特征表示；所计算的特征为解码过程中帧与帧之间的时空上下文信息； Multi‑Head机制的引入如下： Q＝[Q1,Q2,. ..,Qh],Qh＝ Wq_h*X K＝[K1,K2,. ..,Kh],Kh＝ Wk_h*X V＝[V1,V 2,...,Vh],Vh＝ Wv_h*X II)位置编码：引入帧位置编码与注意力图编码，以增强帧图像特征；帧位置编码，将帧图像按先后顺序编号并通过标准embed ding层编码为高维特征Pe；注意力图编码将步骤 ①计算得到的注意力图Am通过标准多层感知器进行编码，得到高维特征Ae，则解码器的初始输入为： Input＝Pe+F e 其中， Fe为编码阶段的最终输出；设定第一层Transformer的计算过程为：权　利　要　求　书 1/3 页 2 CN 114913465 A 2TF_1＝FFN(MHSA(Input)) MHSA是Multi ‑Head Self‑Attention模块的计算过程， FFN为前馈网络模块的计算过程；则第n层Transformer的计算过程为： TF_n＝FFN(MHSA(TF_n ‑1+Ae)) 如上所述， Ae为来自第n‑1层Transformer的注意力图编码； III)虚拟帧结构，将初始化的虚拟帧等同于真实帧图像特征，并根据预测目的赋予其对应的位置编码，再一同输送到多头注意力模型中进行解码；定义该虚拟帧为Vf，则引入虚拟帧结构后解码器初始输入为： Input＝Pe+Co ncatenate(F e,Vf) 其中Concatenate()为标准拼接操作； IV)时序推理结构：将完整的T帧图像特征序列划分为互不重合的序列片段，每个片段包含t帧序列，再分别输入到多头注意力模型中，即多头注意力模型的输入序列长度被限制为t；通过递归的推理方式可以将完整的序列循环解码，最终得到所需的解码特征； ③预测分类器：通过标准MLP将解码得到的帧图像特征的通道数映射为具体动作类别数，取通道最大值作为分类结果。 2.如权利要求1所述的一种基于时序注意力模型的动作预测方法，其特征在于：步骤1) 中的视频数据采样，具体包括以下步骤： a.获取视频流的动作分割块：根据每帧的动作标签将完整的视频流按一个完整动作分割为不同的子视频流，即视频数据中包含一个完整动作的多个子视频流，截取其中一个子视频流及其对应动作作为所需预测的目标； b.根据子视频流向前采样，得到已观测到的数据，用于输送到网络中进行分析预测；设定所截取的子视频流从S时刻开始，到E时刻结束，设定模型需要在动作发生前A秒进行动作预测，所使用的数据为O秒内的视频流，则截取从St＝E ‑O时刻到Et＝S ‑A时刻的视频流作为输入数据，并从中采样T帧图像及对应的动作标注作为模型输入。 3.如权利要求1所述的一种基于时序注意力模型的动作预测方法，其特征在于：步骤2) 中图像预处理时，按帧图像RGB三个通道各自的均值与标准差对将图像进行标准化操作，即将[0,255]范围的色彩值归一化到[0,1]范围；图像缩放时，将帧图像的长宽分别随机缩放到[248,280]像素大小的范围；图像裁剪时，将帧图像随机裁剪到224 ×224像素大小；并随机地将帧图像进行水平翻转。 4.如权利要求1所述的一种基于时序注意力模型的动作预测方法，其特征在于：所述 Patch Embedding模块将一张图像划分为大小一致的16 ×16分块，并将分块内的像素压平；即通过卷积核大小与步长均为16的二维卷积实现，且包括一个层级归一化模块Layer Norm，即表示为： PE(X)＝LayerNorm(Conv(X)) 其中Conv表示卷积核大小与步长均为16的二维卷积。 5.如权利要求1所述的一种基于时序注意力模型的动作预测方法，其特征在于：所述前馈网络模块由一个多层感知器构成，多层感知器包括两个线性层线性层以及一个Relu激活权　利　要　求　书 2/3 页 3 CN 114913465 A 3

专利 一种基于时序注意力模型的动作预测方法

专利一种基于时序注意力模型的动作预测方法