安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210610980.1 (22)申请日 2022.05.31 (71)申请人 谙迈科技 (宁波) 有限公司 地址 315043 浙江省宁波市 鄞州区潘火街 道宁创科技中心1号2 901-1室 (72)发明人 徐涛 黄焯旭 韩军功 范振坤  雷超 程王婧  (74)专利代理 机构 嘉兴启帆专利代理事务所 (普通合伙) 33253 专利代理师 林鸳 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/20(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01)G06V 10/764(2022.01) G06V 10/20(2022.01) G06N 3/04(2006.01) H04N 19/172(2014.01) (54)发明名称 一种基于时序注意力模型的动作预测方法 (57)摘要 本发明公开了一种基于时序注意力模型的 动作预测方法, 基于深度学习, 搭建时序注意力 模型, 该模型通过self ‑attention模 块对来自视 频的图像帧数据进行特征解析, 并融合时序模 型, 递归式地整合时空上下文信息, 并通过自监 督方式进行推理并拟合, 从而可预测长期的未来 动作; 引入虚拟帧结构, 将复杂的预测任务简化 为针对虚拟帧的动作分类任务, 进而最大程度发 挥现有模型整合信息与分类的能力, 更有效地能 够解决现有算法检测准确性低、 预测时长短等问 题。 权利要求书3页 说明书8页 附图3页 CN 114913465 A 2022.08.16 CN 114913465 A 1.一种基于时序注意力模型的动作预测方法, 其特 征在于: 包括以下步骤: 1)视频数据采样: 选用带每帧对应动作标注 的稠密视频流作为训练视频, 在视频流数 据中采样一定帧数的图像; 2)图像预处理: 对步骤1)中采样的图像进行归一化处理, 再对图像进行缩放、 裁剪、 翻 转处理; 3)时序注意力模型的建立与训练: 时序注意力模型包括编码器、 解码器以及预测分类 器三部分; ①编码阶段, 利用transformer模型对图像的强大解析能力, 使用预训练Vision   Transformer(ViT)模型对帧图像进行编码; Vision  Transformer模型包括Patch   Embedding(PE)模块、 Self ‑Attention(SA)模块、 前馈网络(F FN)模块以及残差连接几部分; Self‑Attention模块通过注意力机制计算各个分块两两之间的权重并进一步进行特 征融合; 使用多层线性层将X映射到高维度空间, 分别表示 为: Q=Wq*X K=Wk*X V=Wv*X 其中X为输入图像, Q是查询矩阵, K是关键字矩阵, V是值矩阵, Wq、 Wk、 Wv分别 表示Q、 K、 V 所对应的学习 参数, 通过Q、 K可计算得到各个分块两两之间的关系, 即注意力图Am, 再通过 注意力图Am与V即可计算得到每 个分块的权 重; Am=SoftMax( (Q*K)/sqr t(D) 其中SoftMax指对于计算结果使用指数归一化, D表示Q、 K、 V的特征通道数, sqrt表示开 方操作; Self‑Attention模块计算得到特 征F1可表示 为: F1=Am*V; ②解码阶段: 解码器包括Multi ‑Head Self‑Attention模块、 虚拟帧结构以及时序 推理 结构; I)Multi‑Head Self‑Attention模块: 解码过程中的输入为编码后的帧图像的高维特 征表示; 所计算的特 征为解码过程中帧与帧之间的时空上 下文信息; Multi‑Head机制的引入如下: Q=[Q1,Q2,. ..,Qh],Qh= Wq_h*X K=[K1,K2,. ..,Kh],Kh= Wk_h*X V=[V1,V 2,...,Vh],Vh= Wv_h*X II)位置编码: 引入帧位置编码与注意力图编码, 以增强帧图像特征; 帧位置编码, 将帧 图像按先后顺序编号并通过 标准embed ding层编码为高维特 征Pe; 注意力图编码将步骤 ①计算得到的注意力图Am通过标准多层感知器进行编码, 得到高 维特征Ae, 则解码器的初始输入为: Input=Pe+F e 其中, Fe为编码阶段的最终输出; 设定第一层Transformer的计算过程 为:权 利 要 求 书 1/3 页 2 CN 114913465 A 2TF_1=FFN(MHSA(Input)) MHSA是Multi ‑Head Self‑Attention模块的计算过程, FFN为前馈网络模块的计算过 程; 则第n层Transformer的计算过程 为: TF_n=FFN(MHSA(TF_n ‑1+Ae)) 如上所述, Ae为 来自第n‑1层Transformer的注意力图编码; III)虚拟 帧结构, 将初始化的虚拟 帧等同于真实帧图像特征, 并根据预测目的赋予其 对应的位置编码, 再一同输送到多头注意力模型中进行解码; 定义该虚拟帧为Vf, 则引入虚拟帧结构后解码器初始输入为: Input=Pe+Co ncatenate(F e,Vf) 其中Concatenate()为标准 拼接操作; IV)时序推理结构: 将完整的T帧图像特征序列划分为互不重合的序列片段, 每个片段包含t帧序列, 再分 别输入到多头注意力模型中, 即多头注意力模型的输入序列长度被限制为t; 通过递归的推 理方式可以将完整的序列循环解码, 最终得到所需的解码特 征; ③预测分类器: 通过标准MLP将解码得到的帧图像特征的通道数映射为具体动作类别 数, 取通道最大值作为分类结果。 2.如权利要求1所述的一种基于时序注意力模型的动作预测方法, 其特征在于: 步骤1) 中的视频 数据采样, 具体包括以下步骤: a.获取视频流的动作分割块: 根据每帧的动作标签将完整的视频流按一个完整动作分 割为不同的子视频流, 即视频数据中包含一个完整动作的多个子视频流, 截取其中一个子 视频流及其对应动作 作为所需预测的目标; b.根据子视频流向前采样, 得到已观测到的数据, 用于输送到网络 中进行分析预测; 设 定所截取的子视频流从S时刻开始, 到E时刻结束, 设定模 型需要在动作发生前A秒进 行动作 预测, 所使用的数据为O秒内的视频流, 则截 取从St=E ‑O时刻到Et=S ‑A时刻的视频流作为 输入数据, 并从中采样T帧图像及对应的动作标注作为模型输入。 3.如权利要求1所述的一种基于时序注意力模型的动作预测方法, 其特征在于: 步骤2) 中图像预 处理时, 按帧图像RGB三个通道各自的均值与标准差对将图像进 行标准化操作, 即 将[0,255]范围的色彩值归一化到[0,1]范围; 图像缩放时, 将帧图像的长宽分别随机缩放 到[248,280]像素大小的范围; 图像裁剪时, 将帧图像随机裁剪到224 ×224像素大小; 并随 机地将帧图像进行 水平翻转。 4.如权利要求1所述的一种基于时序注意力模型的动作预测方法, 其特征在于: 所述 Patch Embedding模块将一张图像划分为大小一致的16 ×16分块, 并将分块内的像素压平; 即通过卷积核大小与步长均为16的二维卷积实现, 且包括一个层 级归一化模块Layer Norm, 即表示为: PE(X)=LayerNorm(Conv(X)) 其中Conv表示卷积核大小与步长均为16的二维卷积。 5.如权利要求1所述的一种基于时序注意力模型的动作 预测方法, 其特征在于: 所述前 馈网络模块由一个多层感知器构成, 多层感知器包括两个线性层线性层以及一个Relu激活权 利 要 求 书 2/3 页 3 CN 114913465 A 3

.PDF文档 专利 一种基于时序注意力模型的动作预测方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于时序注意力模型的动作预测方法 第 1 页 专利 一种基于时序注意力模型的动作预测方法 第 2 页 专利 一种基于时序注意力模型的动作预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:45:17上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。