安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211152826.0 (22)申请日 2022.09.21 (71)申请人 华侨大学 地址 362000 福建省泉州市城华北路269号 (72)发明人 杜吉祥 黄政 张洪博 翟传敏  (74)专利代理 机构 厦门智慧呈 睿知识产权代理 事务所(普通 合伙) 35222 专利代理师 王玮婷 (51)Int.Cl. G06V 10/764(2022.01) (54)发明名称 基于多阶段ViT与对比学习的毒蘑菇细粒度 图像分类方法 (57)摘要 本发明实施例提供一种基于多阶段ViT与对 比学习的毒蘑菇细粒度图像分类方法, 涉及图像 识别技术领域。 图像分类方法包含S1获取待识别 图像。 S2根据待识别图像, 进行图像重叠划分, 获 取多个部分重叠的 图像块。 S3根据多个部分重叠 的图像块, 获取嵌入序列。 S4将嵌入序列输入预 先训练好的基于池化的多阶段ViT编码器中进行 编码, 获取待识别图像的特征编码。 S5将特征编 码输入分类器中进行分类, 获取待识别图像的识 别结果。 预先训练好的基于池化的多阶段ViT编 码器包含间隔设置的子编码器和池化层。 子编码 器包含L层transformer block, 用以将嵌入序列 编码成特征图。 池化层配置于子编码器之间, 用 以调整特征图的空间尺寸。 基于池化的多阶段 ViT编码器能够大 大减小了计算开销。 权利要求书2页 说明书7页 附图3页 CN 115527064 A 2022.12.27 CN 115527064 A 1.一种基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法, 其特 征在于, 包 含: 获取待识别图像; 根据所述待识别图像, 进行图像重 叠划分, 获取多个部分重 叠的图像块; 根据所述多个部分重 叠的图像块, 获取嵌入序列; 将所述嵌入序列输入预先训练好的基于池化的多阶段ViT编码器中进行编码, 获取所 述待识别图像的特 征编码; 将所述特 征编码输入分类 器中进行分类, 获取 所述待识别图像的识别结果; 所述预先训练好的基于池化的多阶段ViT编码器包含间隔设置的子编码器和池化层; 所述子编码器包含L层transformer  block, 用以将所述嵌入序列编码成特征图; 所述池化 层配置于所述子编码器之间, 用以调整所述特 征图的空间尺寸。 2.根据权利要求1所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法, 其 特征在于, 所述子编 码器的数量为3个; 所述池化层的数量为2个; 3个所述子编码 器和2个所 述池化层之间 间隔设置, 以构成三阶段的ViT编码器。 3.根据权利要求2所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法, 其 特征在于, 三个子编码器的t ransformer  block层数分别为3、 6和4。 4.根据权利要求1所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法, 其 特征在于, 所述池化层用于: 将前一个子编码器输出的特 征图拆分成分类表示和二维的空间表示; 将所述空间表示变换成3D张量, 然后通过depth ‑wise卷积, 获取尺寸减小后的新的3D 张量; 将所述新的3D张量变换成新的空间表示; 将所述分类表示调整为与所述 新的空间表示维度相同的新的分类表示; 将所述新的空间表示和所述新的分类表示拼接, 获取新的特征图; 其中, 所述新的特征 图用以输入后一个子编码器。 5.根据权利要求4所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法, 其 特征在于, 将所述空间表 示变换成3D张量, 然后通过depth ‑wise卷积, 获取尺寸减小后的新 的3D张量, 具体包括: 将所述空间表示变换成3D张量; 其中, 所述3D张量的尺寸为(D,NH,NW), 式中, D为通道 数, NH和NW为分辨率; 根据所述3D张量, 通过输入通为D, 输出通道2D, 卷积核为(3,3), 步幅为2的depth ‑wise 卷积运算, 获取所述新的3D张量; 其中, 所述 新的3D张量的尺寸 为 将所述新的3D张量变换成新的空间表示, 具体包括: 将所述新的3D张量和与其尺寸相同的位置嵌入相加, 获得 带位置信息的新的3D张量; 将所述带位置信息的新的3D张量变换成所述 新的空间表示; 将所述分类表示调整为与所述 新的空间表示维度相同的新的分类表示, 具体包括: 根据所述分类表示, 通过全连接层, 获取与所述新的空间表示通道数相同的所述新的 分类表示。 6.根据权利要求1所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法, 其权 利 要 求 书 1/2 页 2 CN 115527064 A 2特征在于, 根据所述待识别图像, 进行图像重 叠划分, 获取多个部分重 叠的图像块, 具体包括: 根据所述待识别图像, 以卷积核为(P,P)步幅为S进行2D卷积, 获取三维块嵌入; 其中, 0 <S≤P。 7.根据权利要求6所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法, 其 特征在于, 根据所述多个部分重 叠的图像块, 获取嵌入序列, 具体包括: 将所述三维块嵌入和与其尺寸相同的三维位置嵌入相加, 获取新的三维块嵌入; 将所述新的三维块嵌入变换为 二维, 获取块嵌入序列; 将所述块嵌入序列和与其 通道数相同的分类表示向量进行拼接, 获取 所述嵌入序列。 8.根据权利要求1至7任意一项所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像 分类方法, 其特 征在于, 分类器以对比损 失和交叉熵损 失相结合作为损 失函数训练得到; 损 失函数L的表达式 为: L=Lcon(Z)+Lcross(y,y′), 式中, Lcon(Z)表示对比损失, Lcross(y,y′)表示交叉熵损失。权 利 要 求 书 2/2 页 3 CN 115527064 A 3

PDF文档 专利 基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法 第 1 页 专利 基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法 第 2 页 专利 基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:04:39上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。