(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210537811.X
(22)申请日 2022.05.17
(71)申请人 西北农林科技大 学
地址 712199 陕西省西安市杨凌示范区西
农路南段3号
(72)发明人 唐晶磊 丁亚伟 邵嘉燕 史怀平
霍迎秋
(74)专利代理 机构 北京智行 阳光知识产权代理
事务所(普通 合伙) 11738
专利代理师 王婕
(51)Int.Cl.
G06V 10/26(2022.01)
G06V 10/52(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
G06V 20/40(2022.01)
G06V 40/20(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于改进Tran sformer的家畜图像实例
分割方法
(57)摘要
本发明涉及一种基于改进Transformer的家
畜图像实例分割方法, 包括以下步骤: 步骤S1: 获
取高质量的家畜图像, 进行标注和图像数据扩
增, 构建训练集; 步骤S2: 基于多尺度可变形注意
力模块和统一查询表示模块对目标检测网络
DETR进行改进, 从而构建基于改进Transformer
的家畜图像实例分割模型; 步骤S3: 根据训练集
对基于Tran sformer的家畜图像实例分割模型进
行训练, 得到训练好的分割模型; 步骤S4: 根据训
练好的分割模型对待检测家畜图像数据进行处
理, 获得实例分割效果。 本发明可 以有效地解决
原始Transformer结构直接用于家畜图像分割时
模型训练比较困难、 分割性能不佳的问题。
权利要求书2页 说明书5页 附图2页
CN 115115830 A
2022.09.27
CN 115115830 A
1.一种基于改进 Transformer的家畜图像实例分割方法, 其特 征在于, 包括以下步骤:
步骤S1: 获取高质量的家畜图像, 进行 标注和图像数据扩增, 构建训练集;
步骤S2: 基于多尺度可变形注意力模块和统一查询表示模块对目标检测网络DETR进行
改进, 从而构建基于改进Transformer的家畜图像实例分割模型。 该模型包含三个主要部
分, 一个用以提取多尺度图像特征图的主干卷积神经网络(CNN), 一个编码器 ‑解码器架构
的改进Transformer和一个生成最终预测结果的统一 查询表示模块;
步骤S3: 根据训练集对基于Transformer的家畜图像实例分割模型进行训练, 得到训练
好的分割模型;
步骤S4: 根据训练好的分割模型对待检测家畜图像数据进行处 理, 获得实例分割效果。
2.根据权利要求1所述的基于改进Transformer的家畜图像实例分割方法, 其特征在
于, 所述高质量的家畜图像的获取需要采集家畜监控视频并以各个家畜出现的场景均衡分
布的原则筛选关键 帧, 所述图像数据扩增处理使用的图像数据增强方法包括几何变换、 灰
度和彩色空间变换以及添加噪声和滤波。
3.根据权利要求1所述的基于改进Transformer的家畜图像实例分割方法, 其特征在
于, 所述步骤S2具体包括:
步骤S21: 构建多尺度可变形注意力模块, 以多尺度可变形注意力替换DETR的
Transformer中编码器的自注意力和解码器的交叉注意力。 设多尺度可变形注意力模块的
输出结果为MSDAttn, MSDAttn的计算公式如下:
其中,
表示输入的多尺度特征图。 具体地, l∈[1,L]表示特征图所在层数
的索引, 由于原始DETR仅采用单尺度特征, 因此对于主干网络提取的不同尺度的图像特征
图, 除了位置嵌入, 还额外加入了一个可学习的尺度嵌入以区分不同的特征层。 与原始
Transformer计算注意力时对全局位置进行密集采样不同, 本模块计算注意力时仅在每个
特征层的每个注意力头部采样K个位置(K<<HlWl), m∈[1,M]表示注意力头部的索引, k∈
[1,K]表示采样点的索引。 采样点是由参考点加上可学习的位置偏移得到的, 公式中
为归一化的参考点坐标, 由查询嵌入qi经过可学习的线性投射层再由sigmoid函
数处理后得出, i∈[1,Nq]表示查询嵌入的索引, Nq为预先设定的远大于图像中待分割的家
畜目标个数的值。 Δpmlki表示位置偏移, 由于不同的特征层的尺寸可能不同, 因此归一化的
参考点坐标
与位置偏移相加得出采样点坐标之前 需要通过
运算还原成第l层中参考点
的实际坐标。 Amlki表示归一 化的注意力权 重, Wm、 W′m为多头注意力中的可 学习权重。
步骤S22: 构 建统一查询表示模块, 即在DETR的预测头部分增加一个与原有类别预测分
支和定位分支相平行的掩码嵌入预测分支, 从而使Tr ansformer解码器输出的查询嵌入可
以统一表征以及 并行地完成分类、 定位和掩码嵌入预测这三个子任务, 模型在训练也可以
从多任务学习中受益。 掩码嵌入预测分支是一个三层的带有ReLU激活函数的多层感知机
(MLP), 最终输出预测的掩码嵌入。 由于查询嵌入是一维的, 当其直接用于表征二维的原始
掩码时存在维度上 的鸿沟, 影响分割性能, 因此新增的分支预测的是一维的掩码嵌入而非权 利 要 求 书 1/2 页
2
CN 115115830 A
2原始掩码, 在模型训练时需要将原始掩码转换为掩码嵌入, 预测时需要将掩码嵌入转换为
原始掩码。 本模块采用主成分分析(PCA)的编码方式进行掩码嵌入与原始二维掩码之间的
相互转换。 设掩码向量为v, v的维度为d, 原始掩码为m, m的尺寸为N ×N, 通过PCA将m降维的
计算公式如下:
f=argmi n‖ m‑DDTm||2,s.t.DDT=I
其中
表示转换矩阵,
表示归一化矩阵。 公式的目的是求出f最小时
的D, 则v和m之间相互转换的计算公式如下:
v=mD,m=vDT
4.根据权利要求3所述的基于改进Transformer的家畜图像实例分割方法, 其特征在
于, 基于Transformer的家畜图像实例分割模型总的损失函数公式如下:
Loss= λcls·Lcls+λbox·Lbox+λmask·Lmask
其中, λcls、 λbox、 λmask为分类、 定位和掩码嵌入预测三个损失的不同权重, 分别为1.5、
3.75、 2.25 。
5.根据权利要求1所述的基于改进Transformer的家畜图像实例分割方法, 其特征在
于, 所述步骤S3具体包括:
步骤S31: 采用迁移学习的思想, 利用网络上公开的大型数据集上预训练好的模型权重
对本网络中的权 重进行初始化, 以加快训练时间, 降低网络模型的收敛难度。
步骤S32: 使用Adam优化器对模型进行训练, 训练至网络收敛以获得模型的最优参数,
得到训练好的基于Transformer的家畜图像实例分割模型。
步骤S33: 训练完成后, 使用步骤S1中的测试集样本对训练完成后的基于Transformer
的家畜图像实例分割模型进行测试, 验证模型的效果。权 利 要 求 书 2/2 页
3
CN 115115830 A
3
专利 一种基于改进Transformer的家畜图像实例分割方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:45:08上传分享