安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211214277.5 (22)申请日 2022.09.28 (71)申请人 国网江苏省电力有限公司南 通供电 分公司 地址 226006 江苏省南 通市青年中路52号 (72)发明人 朱建宝 邓伟超 俞鑫春 陈宇  马青山 张才智 叶超 孙根森  陈鹏 曹雯佳  (74)专利代理 机构 镇江至睿专利代理事务所 (普通合伙) 3252 9 专利代理师 郭雨姗 (51)Int.Cl. G06V 20/40(2022.01) G06V 20/52(2022.01) G06V 40/20(2022.01)G06V 10/774(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于多卷积核残 差模块时间tran sformer模 型的安全帽佩戴识别方法 (57)摘要 本发明公开了基于多卷积核残差模块时间 transformer模型的安全帽佩戴识别方法, 选取 基于多卷积核残差模块的时间transformer模 型, 结合深度学习技术, 提供了适合在复杂的电 力作业环 境中进行移动个体检测的方法, 实现了 对电力行业中工作人员安全作业时的安全帽佩 戴情况的自动识别与跟踪检测, 本发 明能够有效 提升电力行业中针对安全帽佩戴识别的适应性 和高效性, 为深度学习技术在电力安全作业中的 动态目标自动识别与跟踪应用探索了一条有效 可行的路径。 权利要求书3页 说明书8页 附图6页 CN 115471776 A 2022.12.13 CN 115471776 A 1.基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法, 其特征在于: 本设计方案主要由四个部分构成: 用于提取特征表示的多卷积核残差神经网络主干、 transformer编码器 ‑解码器、 时间transformer和前馈网络; 其中时间transformer由三个 组件组成, 即时间可变形transformer编码器、 时间查询编码器和时间可变形transformer 解码器, 主 要包含以下步骤: S1: 通过现场监控或其 他摄像工具获取电力作业动态视频; S2: 运用多卷积核残差神经网络主干结构, 对电力作业人员视频图像提取 特征表示; S3: 将S2提取到的特 征, 用位置编码补充它, 得到位置嵌入, 位置编码向量公式如下: 其中, PE为 二维矩阵, pos表示 位置, dmodel表示向量维度; S4: 将S2得到的特 征图和S3获得的位置嵌入传递给t ransformer编码器; S5: 将对象查询得到的输出和S4中trans former编码器的输出作为trans former解码器 的输入, 使用多头注意力模块MultiHeadAttn, 将学习位置编码的输入嵌入转换为输出嵌 入, 并将transformer编码器和transformer解码器的每个输出嵌入传递给时间 transformer, 多头注意力模块实现公式如下: 其中, m为第m注意头, 和 为学习权 重, 注意力权 重Amqk为 为学习权 重; S6: 将S4的特 征图输入至时间可变形t ransformer编码器, 对时空特 征表示进行编码; S7: 将步骤5的输出嵌入输入至时间查询编码器, 从参考帧中获取所有空间对象查询以 增强当前帧的空间输出查询; S8: 将步骤6和步骤7的输出输入到时间可变形transformer解码器中, 以学习不同帧的 时间上下文, 时间可变形transformer解码器层包括自注意力模块、 可变形聚合注意力模 块、 前向反馈层, 可变形聚合注意力模块实现公式为: S9: 将步骤8的每个输出嵌入传递给前馈网络, 通过前馈网络进行最终的目标检测识 别。 2.根据权利要求1所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴 识别方法, 其特 征在于: S2的具体步骤 包括: S2.1: 初始化多卷积核残差神经网络结构的参数, 使用ResNet ‑18作为网络主干, 在残 差模块处使用三种卷积核, 卷积核大小分别为3 ×3、 3×1和1×3, 学习率为10‑5, 权重衰减为 10‑4;权 利 要 求 书 1/3 页 2 CN 115471776 A 2S2.2: 提取电力作业动态视频的第(t ‑i)至t帧对其进行特征提取, 初始图片为3 ×H0× W0, 经多卷积核残差神经网络产生 新特征图C×H×W。 3.根据权利要求2所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴 识别方法, 其特 征在于: S3的具体步骤 包括: S3.1: 将S2.2得到的特征 图分成三份, 一份直接作为V值向量, 其余两份与位置编码向 量直接相加, 分别作为键向量K和查询向量Q, 根据位置编码向量公式(3 ‑1)(3‑2), 可将PE (pos+k,2i)的向量 求解, 表示为PE(pos,2i)上的线性表示: 4.根据权利要求3所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴 识别方法, 其特 征在于: S4的具体步骤 包括: S4.1: transformer编码器每一层由多头注意力机制模块、 Add&Norm模块和前向传播模 块组成, 一共有6层, 在多头注意力层和前向反馈层Feed ‑Forward后 各进行一次归一化, 初 始学习率 为2×10‑4, 权重衰减为10‑4; S4.2: 将S3.1得到的KVQ输入多头注意力模块, 输出新特 征图; S4.3: 将S4.2得到的新特 征图与原特 征图相加; S4.4: 进行l inear还原维度, ReLU激活; S4.5: 重复经 过6个transformer编码器层后, 编码结束, 输出。 5.根据权利要求4所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴 识别方法, 其特 征在于: S5的具体步骤 包括: S5.1: transformer译码器的输入包括查询嵌入、 查询位置、 transformer编码器输出、 多头注意力机制模块、 Add&Norm模块和前向传播模块组成, 一共有6层, 每一层的输入除了 上一层输入外, 还有查询位置和transformer编码器中的位置编码, 初始学习率为2 ×10‑4, 权重衰减为10‑4; S5.2: 输入通过对象查询对anchor的编码的查询嵌入与查询位置相加得到K、 Q, 对象查 询设置为3 00; S5 .3: 将S5 .2得到的K和Q与对象查询的输出输入到第一个多头注意力模块 MultiHeadA ttn, 得到输出; S5.4: 将S5.3的输出进行dropout与对象查询的输出相加输出; S5.5: 将对象查询的输出于与 查询位置相加得到Q, 将S4.5的输出与 位置编码向量相加 得到K, S4.5的输出作为V, 输入至第二个多头注意力模块; S5.6: 进行l inear还原维度, ReLU激活; S5.7: 经过6个transformer解码器层后, 解码结束, 输出。 6.根据权利要求5所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴 识别方法, 其特 征在于: S6的具体步骤 包括: S6.1: TDTE层包括自注意力模块Self ‑Attention、 多头可变形注意力模块TempDefAttn 和前向反馈层;权 利 要 求 书 2/3 页 3 CN 115471776 A 3

PDF文档 专利 基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法 第 1 页 专利 基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法 第 2 页 专利 基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:25上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。