(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211152826.0
(22)申请日 2022.09.21
(71)申请人 华侨大学
地址 362000 福建省泉州市城华北路269号
(72)发明人 杜吉祥 黄政 张洪博 翟传敏
(74)专利代理 机构 厦门智慧呈 睿知识产权代理
事务所(普通 合伙) 35222
专利代理师 王玮婷
(51)Int.Cl.
G06V 10/764(2022.01)
(54)发明名称
基于多阶段ViT与对比学习的毒蘑菇细粒度
图像分类方法
(57)摘要
本发明实施例提供一种基于多阶段ViT与对
比学习的毒蘑菇细粒度图像分类方法, 涉及图像
识别技术领域。 图像分类方法包含S1获取待识别
图像。 S2根据待识别图像, 进行图像重叠划分, 获
取多个部分重叠的 图像块。 S3根据多个部分重叠
的图像块, 获取嵌入序列。 S4将嵌入序列输入预
先训练好的基于池化的多阶段ViT编码器中进行
编码, 获取待识别图像的特征编码。 S5将特征编
码输入分类器中进行分类, 获取待识别图像的识
别结果。 预先训练好的基于池化的多阶段ViT编
码器包含间隔设置的子编码器和池化层。 子编码
器包含L层transformer block, 用以将嵌入序列
编码成特征图。 池化层配置于子编码器之间, 用
以调整特征图的空间尺寸。 基于池化的多阶段
ViT编码器能够大 大减小了计算开销。
权利要求书2页 说明书7页 附图3页
CN 115527064 A
2022.12.27
CN 115527064 A
1.一种基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法, 其特 征在于, 包 含:
获取待识别图像;
根据所述待识别图像, 进行图像重 叠划分, 获取多个部分重 叠的图像块;
根据所述多个部分重 叠的图像块, 获取嵌入序列;
将所述嵌入序列输入预先训练好的基于池化的多阶段ViT编码器中进行编码, 获取所
述待识别图像的特 征编码;
将所述特 征编码输入分类 器中进行分类, 获取 所述待识别图像的识别结果;
所述预先训练好的基于池化的多阶段ViT编码器包含间隔设置的子编码器和池化层;
所述子编码器包含L层transformer block, 用以将所述嵌入序列编码成特征图; 所述池化
层配置于所述子编码器之间, 用以调整所述特 征图的空间尺寸。
2.根据权利要求1所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法, 其
特征在于, 所述子编 码器的数量为3个; 所述池化层的数量为2个; 3个所述子编码 器和2个所
述池化层之间 间隔设置, 以构成三阶段的ViT编码器。
3.根据权利要求2所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法, 其
特征在于, 三个子编码器的t ransformer block层数分别为3、 6和4。
4.根据权利要求1所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法, 其
特征在于, 所述池化层用于:
将前一个子编码器输出的特 征图拆分成分类表示和二维的空间表示;
将所述空间表示变换成3D张量, 然后通过depth ‑wise卷积, 获取尺寸减小后的新的3D
张量;
将所述新的3D张量变换成新的空间表示;
将所述分类表示调整为与所述 新的空间表示维度相同的新的分类表示;
将所述新的空间表示和所述新的分类表示拼接, 获取新的特征图; 其中, 所述新的特征
图用以输入后一个子编码器。
5.根据权利要求4所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法, 其
特征在于, 将所述空间表 示变换成3D张量, 然后通过depth ‑wise卷积, 获取尺寸减小后的新
的3D张量, 具体包括:
将所述空间表示变换成3D张量; 其中, 所述3D张量的尺寸为(D,NH,NW), 式中, D为通道
数, NH和NW为分辨率;
根据所述3D张量, 通过输入通为D, 输出通道2D, 卷积核为(3,3), 步幅为2的depth ‑wise
卷积运算, 获取所述新的3D张量; 其中, 所述 新的3D张量的尺寸 为
将所述新的3D张量变换成新的空间表示, 具体包括:
将所述新的3D张量和与其尺寸相同的位置嵌入相加, 获得 带位置信息的新的3D张量;
将所述带位置信息的新的3D张量变换成所述 新的空间表示;
将所述分类表示调整为与所述 新的空间表示维度相同的新的分类表示, 具体包括:
根据所述分类表示, 通过全连接层, 获取与所述新的空间表示通道数相同的所述新的
分类表示。
6.根据权利要求1所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法, 其权 利 要 求 书 1/2 页
2
CN 115527064 A
2特征在于,
根据所述待识别图像, 进行图像重 叠划分, 获取多个部分重 叠的图像块, 具体包括:
根据所述待识别图像, 以卷积核为(P,P)步幅为S进行2D卷积, 获取三维块嵌入; 其中, 0
<S≤P。
7.根据权利要求6所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法, 其
特征在于,
根据所述多个部分重 叠的图像块, 获取嵌入序列, 具体包括:
将所述三维块嵌入和与其尺寸相同的三维位置嵌入相加, 获取新的三维块嵌入;
将所述新的三维块嵌入变换为 二维, 获取块嵌入序列;
将所述块嵌入序列和与其 通道数相同的分类表示向量进行拼接, 获取 所述嵌入序列。
8.根据权利要求1至7任意一项所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像
分类方法, 其特 征在于,
分类器以对比损 失和交叉熵损 失相结合作为损 失函数训练得到; 损 失函数L的表达式
为: L=Lcon(Z)+Lcross(y,y′), 式中, Lcon(Z)表示对比损失, Lcross(y,y′)表示交叉熵损失。权 利 要 求 书 2/2 页
3
CN 115527064 A
3
专利 基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:04:39上传分享