(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211214277.5
(22)申请日 2022.09.28
(71)申请人 国网江苏省电力有限公司南 通供电
分公司
地址 226006 江苏省南 通市青年中路52号
(72)发明人 朱建宝 邓伟超 俞鑫春 陈宇
马青山 张才智 叶超 孙根森
陈鹏 曹雯佳
(74)专利代理 机构 镇江至睿专利代理事务所
(普通合伙) 3252 9
专利代理师 郭雨姗
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 20/52(2022.01)
G06V 40/20(2022.01)G06V 10/774(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于多卷积核残 差模块时间tran sformer模
型的安全帽佩戴识别方法
(57)摘要
本发明公开了基于多卷积核残差模块时间
transformer模型的安全帽佩戴识别方法, 选取
基于多卷积核残差模块的时间transformer模
型, 结合深度学习技术, 提供了适合在复杂的电
力作业环 境中进行移动个体检测的方法, 实现了
对电力行业中工作人员安全作业时的安全帽佩
戴情况的自动识别与跟踪检测, 本发 明能够有效
提升电力行业中针对安全帽佩戴识别的适应性
和高效性, 为深度学习技术在电力安全作业中的
动态目标自动识别与跟踪应用探索了一条有效
可行的路径。
权利要求书3页 说明书8页 附图6页
CN 115471776 A
2022.12.13
CN 115471776 A
1.基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法, 其特征在于:
本设计方案主要由四个部分构成: 用于提取特征表示的多卷积核残差神经网络主干、
transformer编码器 ‑解码器、 时间transformer和前馈网络; 其中时间transformer由三个
组件组成, 即时间可变形transformer编码器、 时间查询编码器和时间可变形transformer
解码器, 主 要包含以下步骤:
S1: 通过现场监控或其 他摄像工具获取电力作业动态视频;
S2: 运用多卷积核残差神经网络主干结构, 对电力作业人员视频图像提取 特征表示;
S3: 将S2提取到的特 征, 用位置编码补充它, 得到位置嵌入, 位置编码向量公式如下:
其中, PE为 二维矩阵, pos表示 位置, dmodel表示向量维度;
S4: 将S2得到的特 征图和S3获得的位置嵌入传递给t ransformer编码器;
S5: 将对象查询得到的输出和S4中trans former编码器的输出作为trans former解码器
的输入, 使用多头注意力模块MultiHeadAttn, 将学习位置编码的输入嵌入转换为输出嵌
入, 并将transformer编码器和transformer解码器的每个输出嵌入传递给时间
transformer, 多头注意力模块实现公式如下:
其中, m为第m注意头,
和
为学习权 重, 注意力权 重Amqk为
为学习权 重;
S6: 将S4的特 征图输入至时间可变形t ransformer编码器, 对时空特 征表示进行编码;
S7: 将步骤5的输出嵌入输入至时间查询编码器, 从参考帧中获取所有空间对象查询以
增强当前帧的空间输出查询;
S8: 将步骤6和步骤7的输出输入到时间可变形transformer解码器中, 以学习不同帧的
时间上下文, 时间可变形transformer解码器层包括自注意力模块、 可变形聚合注意力模
块、 前向反馈层, 可变形聚合注意力模块实现公式为:
S9: 将步骤8的每个输出嵌入传递给前馈网络, 通过前馈网络进行最终的目标检测识
别。
2.根据权利要求1所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴
识别方法, 其特 征在于: S2的具体步骤 包括:
S2.1: 初始化多卷积核残差神经网络结构的参数, 使用ResNet ‑18作为网络主干, 在残
差模块处使用三种卷积核, 卷积核大小分别为3 ×3、 3×1和1×3, 学习率为10‑5, 权重衰减为
10‑4;权 利 要 求 书 1/3 页
2
CN 115471776 A
2S2.2: 提取电力作业动态视频的第(t ‑i)至t帧对其进行特征提取, 初始图片为3 ×H0×
W0, 经多卷积核残差神经网络产生 新特征图C×H×W。
3.根据权利要求2所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴
识别方法, 其特 征在于: S3的具体步骤 包括:
S3.1: 将S2.2得到的特征 图分成三份, 一份直接作为V值向量, 其余两份与位置编码向
量直接相加, 分别作为键向量K和查询向量Q, 根据位置编码向量公式(3 ‑1)(3‑2), 可将PE
(pos+k,2i)的向量 求解, 表示为PE(pos,2i)上的线性表示:
4.根据权利要求3所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴
识别方法, 其特 征在于: S4的具体步骤 包括:
S4.1: transformer编码器每一层由多头注意力机制模块、 Add&Norm模块和前向传播模
块组成, 一共有6层, 在多头注意力层和前向反馈层Feed ‑Forward后 各进行一次归一化, 初
始学习率 为2×10‑4, 权重衰减为10‑4;
S4.2: 将S3.1得到的KVQ输入多头注意力模块, 输出新特 征图;
S4.3: 将S4.2得到的新特 征图与原特 征图相加;
S4.4: 进行l inear还原维度, ReLU激活;
S4.5: 重复经 过6个transformer编码器层后, 编码结束, 输出。
5.根据权利要求4所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴
识别方法, 其特 征在于: S5的具体步骤 包括:
S5.1: transformer译码器的输入包括查询嵌入、 查询位置、 transformer编码器输出、
多头注意力机制模块、 Add&Norm模块和前向传播模块组成, 一共有6层, 每一层的输入除了
上一层输入外, 还有查询位置和transformer编码器中的位置编码, 初始学习率为2 ×10‑4,
权重衰减为10‑4;
S5.2: 输入通过对象查询对anchor的编码的查询嵌入与查询位置相加得到K、 Q, 对象查
询设置为3 00;
S5 .3: 将S5 .2得到的K和Q与对象查询的输出输入到第一个多头注意力模块
MultiHeadA ttn, 得到输出;
S5.4: 将S5.3的输出进行dropout与对象查询的输出相加输出;
S5.5: 将对象查询的输出于与 查询位置相加得到Q, 将S4.5的输出与 位置编码向量相加
得到K, S4.5的输出作为V, 输入至第二个多头注意力模块;
S5.6: 进行l inear还原维度, ReLU激活;
S5.7: 经过6个transformer解码器层后, 解码结束, 输出。
6.根据权利要求5所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴
识别方法, 其特 征在于: S6的具体步骤 包括:
S6.1: TDTE层包括自注意力模块Self ‑Attention、 多头可变形注意力模块TempDefAttn
和前向反馈层;权 利 要 求 书 2/3 页
3
CN 115471776 A
3
专利 基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:06:25上传分享