安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211120458.1 (22)申请日 2022.09.15 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 申请人 浙江大华 技术股份有限公司 (72)发明人 颜成钢 殷俊 颜拥 王洪波  胡冀 熊剑平 李亮 郑博仑  林聚财 孔书晗 王亚运 孙垚棋  金恒 朱尊杰 高宇涵 殷海兵  王鸿奎 陈楚翘 刘一秀 李文超  王廷宇 张勇东 张继勇  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 专利代理师 朱月芬(51)Int.Cl. G06V 10/764(2022.01) G06V 10/30(2022.01) G06V 10/40(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种图像分类方法 (57)摘要 本发明公开了一种图像 分类方法。 首先构建 通道维度注意力网络和空间维度多尺度自注意 力网络; 然后将输入图像预处理后输入通道维度 注意力网络, 生成基于通道维度的注意力特征 图; 将基于通道维度的注意力特征图输入至空间 维度的多尺度自注意力网络, 生成基于特征图空 间维度的多尺度自注意力特征图; 最后将最终生 成的多维度多尺度注意力特征图输入到分类器 单元中, 将模型输出的向量转换成概率表示, 完 成图像分类。 本发明设计了一种新的多尺度自注 意力机制, 它利用一系列的深度可分离卷积操 作, 生成特征信息高度相关的局部特征图和区域 特征图, 不但可以强化自注意力机制的细粒度特 征提取能力, 还可以高效的提取有效的全局信 息。 权利要求书3页 说明书8页 附图3页 CN 115222998 A 2022.10.21 CN 115222998 A 1.一种图像分类方法, 其特 征在于包括以下步骤: 步骤1:基于PVT的架构, 构建通道维度注意力网络和空间维度多尺度自注意力网络; 步骤2:将输入图像预处理后输入通道维度注意力网络, 生成基于通道维度的注意力特 征图; 步骤3:将基于通道维度的注意力特征图输入至空间维度多尺度自注意力网络, 生成基 于特征图空间维度的多尺度自注意力特 征图; 步骤4:重复步骤2和步骤3直到架构内的第四个阶段, 将最终生成的多维度多尺度注意 力特征图输入到分类 器单元中, 将模型输出的向量 转换成概 率表示, 完成图像分类。 2.根据权利要求1所述的一种图像分类方法, 其特 征在于: PVT的架构一共包含四个阶段, 通过嵌入层来逐渐降低输入的分辨率; 每个阶段中, 分 别构建通道维度注意力网络和空间维度多尺度自注意力网络 。 3.根据权利要求1或2所述的一种图像分类方法, 其特征在于步骤1中所述的通道维度 注意力网络: 第一层是两个平行的池化层, 包括 最大池化和平均池化; 第二层是共享 参数层, 由多层感知机和一层隐藏层组成; 第三层是最大池化特 征图与平均池化特 征图的元 素求和操作; 第四层是sigmo id层; 第五层是针对原特 征图的softmax层; 第六层是对第四层和第五层输出的两个权 重矩阵按元 素求和操作; 第七层是第六层输出的权重矩阵与原特征图进行矩阵乘法操作, 最后输出通道维度 特 征图。 4.根据权利要求3所述的一种图像分类方法, 其特征在于步骤1中所述的空间维度的多 尺度自注意力网络: 第一层是两个平行的卷积核, 卷积核分别为7 ×7和3×3, 步长分别为7和1; 第二层是层归一 化操作; 第三层是 卷积核为3 ×3, 步长为2的卷积 操作; 第四层是自注意力计算, 包括矩阵相乘, softmax层归一化, 权重矩阵与原矩阵的乘积, 最终输出空间维度注意力特 征图。 5.根据权利要求4所述的一种图像分类方法, 其特征在于步骤2中对输入图像使用带有 零填充的卷积操作生成图像嵌入向量; 为了实现图像分类任务, 在图像嵌入向量前拼接一 个分类向量CLS, 将其作为通道维度 注意力网络的输入; 将中间特征图输入至通道维度 注意 力网络, 生成基于图像通道维度的注意力特 征图。 6.根据权利要求4或5所述的一种图像分类方法, 其特征在于步骤3中, 对通道维度的注 意力特征图进行维度重置, 生成二维的局部特征图, 并将其作为空间维度的多尺度自注意 力网络的输入; 利用卷积核的层次结构, 通过使用不同的卷积核和步长的深度可分离卷积 操作, 将自注意力网络划分为局部特征计算和区域特征计算两条路线, 生成语义特征高度 相关的局部特征图和区域特征图; 将局部的上下文信息作为查询Qu ery, 区域的上下文信息 作为健值Key和Value来计算 最终的空间维度多尺度自注意力特 征图。 7.根据权利要求6所述的一种图像分类方法, 其特征在于步骤4中, 反复的在四个阶段权 利 要 求 书 1/3 页 2 CN 115222998 A 2中更新CLS分类 向量, 由浅到深的提取多维度多尺度的高级语义特征; 在最后一个阶段, 将 最终的CLS分类向量输入到分类器单元的前馈神经网络层FNN生成num ×1的向量, 其中num 表示训练集的图像类别个数, 最终通过一个分类器单元的softmax层, 完成类别概率计算, 完成最终的分类。 8.根据权利要求5所述的一种图像分类方法, 其特征在于步骤2中将输入图像预处理后 输入通道维度注意力网络, 生成基于通道维度的注意力特 征图; 具体实现包括以下子步骤: 步骤2.1:对于任意输入图像, 通过带有零填充的卷积操作以及flatten操作生成一维 图像嵌入向量, 在图像嵌入向量的最前面 拼接分类向量; 步骤2.2:对输入图像进行二维位置编码, 得到二维位置编码向量, 并将其插入到步骤 2.1最终拼接后生成的一维向量中作为模型的最终输入 x:                          (1) 其中, 和 是分类向量和补丁标记向量, [  || ]表示向量之间的拼接, 表示位置编码向量。 9.根据权利要求5所述的一种图像分类方法, 其特征在于步骤2中将预处理后的特征图 像x输入至通道维度 注意力网络, 生成基于图像通道维度的注意力特征图; 其具体实现包括 以下子步骤: 步骤2.3:将预处理后的特征 图像 同时输入到自适应最大池化层 和自适应平均池化层中, 输出两个中间特 征图 ; 步骤2.4:将中间特征图 分别输入到共享参数层, 该共享参数层由多 层感知机和一个隐藏层组成; 将参数降低比率r设置为16, 因此在多层感知机中, 第一个全 连接层输出的特征图为 , 经过RELU激活函数得 到 , 紧接着再通过一个全连接层将特征图的 维度转换为 ; 将共享参数层输出的平均池化特 征图和最大池化特征图进行元素求和操作, 最后再连接一个sigmoid层生成通道注意力权 重矩阵Mc(x), 计算过程 概括为公式 (2) :          (2) 步骤2.5:将原特征图像 输入到softmax强化特征层, 输出原特征 图像的权重矩阵 , 将权重矩阵 与Mc(x)进行元素求和 操作, 将求和结果和原特征图 像x进行乘法操作, 进行维度转换后生成最终的通道关注图 , 计算过程如 下:                         (3)。权 利 要 求 书 2/3 页 3 CN 115222998 A 3

PDF文档 专利 一种图像分类方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种图像分类方法 第 1 页 专利 一种图像分类方法 第 2 页 专利 一种图像分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:04:47上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。