专利 基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211214277.5 (22)申请日 2022.09.28 (71)申请人国网江苏省电力有限公司南通供电分公司地址 226006 江苏省南通市青年中路52号 (72)发明人朱建宝　邓伟超　俞鑫春　陈宇　马青山　张才智　叶超　孙根森　陈鹏　曹雯佳　 (74)专利代理机构镇江至睿专利代理事务所 (普通合伙) 3252 9 专利代理师郭雨姗 (51)Int.Cl. G06V 20/40(2022.01) G06V 20/52(2022.01) G06V 40/20(2022.01)G06V 10/774(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于多卷积核残差模块时间tran sformer模型的安全帽佩戴识别方法 (57)摘要本发明公开了基于多卷积核残差模块时间 transformer模型的安全帽佩戴识别方法，选取基于多卷积核残差模块的时间transformer模型，结合深度学习技术，提供了适合在复杂的电力作业环境中进行移动个体检测的方法，实现了对电力行业中工作人员安全作业时的安全帽佩戴情况的自动识别与跟踪检测，本发明能够有效提升电力行业中针对安全帽佩戴识别的适应性和高效性，为深度学习技术在电力安全作业中的动态目标自动识别与跟踪应用探索了一条有效可行的路径。权利要求书3页说明书8页附图6页 CN 115471776 A 2022.12.13 CN 115471776 A 1.基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法，其特征在于：本设计方案主要由四个部分构成：用于提取特征表示的多卷积核残差神经网络主干、 transformer编码器 ‑解码器、时间transformer和前馈网络；其中时间transformer由三个组件组成，即时间可变形transformer编码器、时间查询编码器和时间可变形transformer 解码器，主要包含以下步骤： S1：通过现场监控或其他摄像工具获取电力作业动态视频； S2：运用多卷积核残差神经网络主干结构，对电力作业人员视频图像提取特征表示； S3：将S2提取到的特征，用位置编码补充它，得到位置嵌入，位置编码向量公式如下：其中， PE为二维矩阵， pos表示位置， dmodel表示向量维度； S4：将S2得到的特征图和S3获得的位置嵌入传递给t ransformer编码器； S5：将对象查询得到的输出和S4中trans former编码器的输出作为trans former解码器的输入，使用多头注意力模块MultiHeadAttn，将学习位置编码的输入嵌入转换为输出嵌入，并将transformer编码器和transformer解码器的每个输出嵌入传递给时间 transformer，多头注意力模块实现公式如下：其中， m为第m注意头，和为学习权重，注意力权重Amqk为为学习权重； S6：将S4的特征图输入至时间可变形t ransformer编码器，对时空特征表示进行编码； S7：将步骤5的输出嵌入输入至时间查询编码器，从参考帧中获取所有空间对象查询以增强当前帧的空间输出查询； S8：将步骤6和步骤7的输出输入到时间可变形transformer解码器中，以学习不同帧的时间上下文，时间可变形transformer解码器层包括自注意力模块、可变形聚合注意力模块、前向反馈层，可变形聚合注意力模块实现公式为： S9：将步骤8的每个输出嵌入传递给前馈网络，通过前馈网络进行最终的目标检测识别。 2.根据权利要求1所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法，其特征在于： S2的具体步骤包括： S2.1：初始化多卷积核残差神经网络结构的参数，使用ResNet ‑18作为网络主干，在残差模块处使用三种卷积核，卷积核大小分别为3 ×3、 3×1和1×3，学习率为10‑5，权重衰减为 10‑4；权　利　要　求　书 1/3 页 2 CN 115471776 A 2S2.2：提取电力作业动态视频的第(t ‑i)至t帧对其进行特征提取，初始图片为3 ×H0× W0，经多卷积核残差神经网络产生新特征图C×H×W。 3.根据权利要求2所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法，其特征在于： S3的具体步骤包括： S3.1：将S2.2得到的特征图分成三份，一份直接作为V值向量，其余两份与位置编码向量直接相加，分别作为键向量K和查询向量Q，根据位置编码向量公式(3 ‑1)(3‑2)，可将PE (pos+k,2i)的向量求解，表示为PE(pos,2i)上的线性表示： 4.根据权利要求3所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法，其特征在于： S4的具体步骤包括： S4.1： transformer编码器每一层由多头注意力机制模块、 Add&Norm模块和前向传播模块组成，一共有6层，在多头注意力层和前向反馈层Feed ‑Forward后各进行一次归一化，初始学习率为2×10‑4，权重衰减为10‑4； S4.2：将S3.1得到的KVQ输入多头注意力模块，输出新特征图； S4.3：将S4.2得到的新特征图与原特征图相加； S4.4：进行l inear还原维度， ReLU激活； S4.5：重复经过6个transformer编码器层后，编码结束，输出。 5.根据权利要求4所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法，其特征在于： S5的具体步骤包括： S5.1： transformer译码器的输入包括查询嵌入、查询位置、 transformer编码器输出、多头注意力机制模块、 Add&Norm模块和前向传播模块组成，一共有6层，每一层的输入除了上一层输入外，还有查询位置和transformer编码器中的位置编码，初始学习率为2 ×10‑4，权重衰减为10‑4； S5.2：输入通过对象查询对anchor的编码的查询嵌入与查询位置相加得到K、 Q，对象查询设置为3 00； S5 .3：将S5 .2得到的K和Q与对象查询的输出输入到第一个多头注意力模块 MultiHeadA ttn，得到输出； S5.4：将S5.3的输出进行dropout与对象查询的输出相加输出； S5.5：将对象查询的输出于与查询位置相加得到Q，将S4.5的输出与位置编码向量相加得到K， S4.5的输出作为V，输入至第二个多头注意力模块； S5.6：进行l inear还原维度， ReLU激活； S5.7：经过6个transformer解码器层后，解码结束，输出。 6.根据权利要求5所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法，其特征在于： S6的具体步骤包括： S6.1： TDTE层包括自注意力模块Self ‑Attention、多头可变形注意力模块TempDefAttn 和前向反馈层；权　利　要　求　书 2/3 页 3 CN 115471776 A 3

专利 基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法

专利基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法