(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210372827.X
(22)申请日 2022.04.11
(71)申请人 青岛理工大 学
地址 266520 山东省青岛市黄岛区嘉陵江
东路777号青岛理工大学信控大楼607
室
(72)发明人 郝思媛 吴斌 刘佳璇
(51)Int.Cl.
G06V 20/10(2022.01)
G06V 10/44(2022.01)
G06V 10/774(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/08(2006.01)
(54)发明名称
一种双流Swin Transformer遥感场景分类
方法
(57)摘要
本 发 明 提 供 的 是 一 种 双 流 S w i n
Transformer的遥感场景分类方法, 可以显著提
高遥感图像的场景分类精度。 提出的方法包括边
缘合成图像的生成、 原始特征和边缘特征的提
取、 特征融合三个步骤。 边缘合成图像的生成是
通过可导的Sobel算子提取边缘图像后与, 原始
图像的灰度图在通道维度连接; 原始特征和边缘
特征是通过两个 结构相同的Swin Transformer,
分别提取原始特征和边缘特征; 特征融合是将两
个特征串联在一块后, 通过全连接, 将特征融合
在一起, 并通过重新设计的损失函数形式, 优化
网络参数。
权利要求书1页 说明书5页 附图4页
CN 114937202 A
2022.08.23
CN 114937202 A
1.一种双流Sw in Transformer的遥感场景分类方法, 其特 征在于, 包 含以下步骤:
S1: 处理原始遥感影像 X∈RH×W×C, 其中H、 W、 C分别是图像的高度、 宽度和通道数, 将图像
进行灰度处理, 生成单通道灰度图 G;
S2: 通过可导的Sobel算子, 将生成横轴和纵轴的边缘图像 Gx和Gy, 与灰度图 G在通道维
度连接, 形成一张三 通道的边 缘图像T(i)=Concat(G, Gx, Gy), 其中Concat代表串联连接;
S3: 将原始遥感图像 T和边缘图像T(i)划分为图像块, 其中 n指的一张图像的图像块数
目,
T={x1, x2… xn},
T(i)={x1, x2… xn};
S4: 将原始图像块和边缘图像块分别送入两流的Swin Transformer去分别提取特征,
两流的Transformer均具有相同结构, 并且它们之间的参数各自单独学习, Swin
Transformer对边缘图像提取的特征较为特殊, 既含有原始的影像信息, 又含有边缘的强调
信息;
S5: 经过Swin Transformer提取的原始特征和边缘特征分别为 F1和F2, 经过以下形式进
行融合:
F’=FC(Concat(F1,F2))
其中Concat代表串联连接,FC代表全连接, F’代表融合特 征;
S6: 将融合特 征F’送入softmax分类 器, 进行最终的预测。
2.根据权利要求1所述的一种具有可导Sobel算子的双流Swin Transformer遥感场景
分类方法, 其特征在于, 所述步骤S2采用了可导的Sobel算子, 将算子置入 卷积核中, 通过卷
积操作完成边缘提取, 卷积核能够在网络的反向传播过程中更新参数, 以实现Sobel算子值
的自适应学习。
3.根据权利要求1所述的一种具有可导Sobel算子的双流Swin Transformer遥感场景
分类方法, 其特征在于, 所述步骤S5融合特征的同时, 也对损失函数进行了重新设计, 引入
了辅助损失函数, 通过权 重系数λ控制两个损失函数的平衡, 公式为:
L= λLF+(1‑λ )LF1
其中LF和LF1分别是特征F’和F1的交叉熵损失函数, L是最终的损失函数。权 利 要 求 书 1/1 页
2
CN 114937202 A
2一种双流Swin Transformer遥感场景分类方 法
技术领域
[0001]本发明涉及 遥感图像场景分类方法, 特别是涉及一种 双流Swin Transformer遥 感
场景分类方法, 属于 遥感信息处 理技术领域。
背景技术
[0002]遥感图像是帮助我们进行地球观测的宝贵资源。 随着地球观测技术的进步, 高分
辨率遥感图像的数量急剧增加。 因此, 理解复杂、 海量的遥感图像成为遥感场景分类成为一
项重要任务。 遥感场景分类技术已经广泛应用于城市规划、 地理图像检索、 环境检测、 植被
制图以及地球空间对象检测等众多领域。
[0003]在近几十年, 许多基于传统手工特征或者深度学习特征的的场景分类方法被提
出。 深度学习方法依旧是目前主流的场景分类方法。 深度学习方法包括深度信念神经网络
(DBNN) 、 卷积神经网络 (CNN) 以及视觉Transformer。 Ch eng等人在遥感场景分类任务上首先
使用了CNN进行特征提取。 Zhou等人通过 预训练的CN N完成了端到端的遥感分类任务。
[0004]最近, Transformer在自然语言处理 (NLP) 领域取得了令人瞩目的成就, 同时也被
引入了图像分类领域。 Dosoviskiy等人提出的Vision Transformer (ViT) 在图像分类领域
取得了优秀 成绩。 Transformer 最近也被引入到了遥感场景分类中, 大部 分的工作都是基于
经典的ViT模 型。 例如, Bazi等人将预 处理的ViT模 型与数据增强和网络修建相结合, 提高了
ViT在遥感场景分类的性能。 Deng等人提出了用于场景分类的联合模 型CTNet, 其中ViT用于
提取图像语义特征, CNN用于提取局部结构特征。 Zhang等人提出的TRSNet优化了残差网络,
增加了Transformer结构, 实现了Transformer和CN N更好的交 互性, 提高了分类性能。
[0005]虽然ViT是目前占据主导地位的Transformer解决方案, 但是它仍有很多缺点。 例
如, 它的特征图具有 单一不变的分辨率, 并且自注意力计算复杂度达到了二次方。 另外, ViT
过度关注了长距离的语义信息, 而忽略了局部的结构信息。 Liu等人提出的Shift windows
(Swin) Transformer通过引入CNN的一些特性并且通过合并图像块来构建分层特征图, 解决
了以上问题。 并且Swin Trannsformer具有线性的自注意力计算复杂 度。 因此, 在本文中, 我
们选用了Sw in Transformer作为框架的骨干网络 。
[0006]另外, 上述方法, 都是针对自然图像设计 的网络, 没有充分考虑遥感图像 的特点。
遥感图像通常尺寸大、 分辨率高, 并且覆盖大量地面物体。 更为重要的是, 由于遥感场景图
像是由随机 分布的地面物体组合而成, 因此更难以有效识别。 边缘曲线这种特征, 对于遥感
场景分类具有极大的帮助。 因此, 为了有效地提取提取边缘信息, 我们提出了一种可微边缘
Sobel算子模块。 与直接使用Sob el算子进行边缘提取的其他方法不用, 我们使用了可微分
的Sobel算子来提取边缘。
[0007]在此背景下, 我们 提出了一种具有可导Sobel算子的双流Swin Transformer遥感
场景分类方法, 通过融合原始特征和边缘特征, 提高了遥感场景分类的精度。 创新性构建了
可导的边 缘Sobel算子模块, 能够生成具有丰富 边缘信息的图像。说 明 书 1/5 页
3
CN 114937202 A
3
专利 一种双流Swin Transformer遥感场景分类方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:06:50上传分享