专利 一种基于改进Transformer的家畜图像实例分割方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210537811.X (22)申请日 2022.05.17 (71)申请人西北农林科技大学地址 712199 陕西省西安市杨凌示范区西农路南段3号 (72)发明人唐晶磊　丁亚伟　邵嘉燕　史怀平　霍迎秋　 (74)专利代理机构北京智行阳光知识产权代理事务所(普通合伙) 11738 专利代理师王婕 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/52(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06V 20/40(2022.01) G06V 40/20(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于改进Tran sformer的家畜图像实例分割方法 (57)摘要本发明涉及一种基于改进Transformer的家畜图像实例分割方法，包括以下步骤：步骤S1：获取高质量的家畜图像，进行标注和图像数据扩增，构建训练集；步骤S2：基于多尺度可变形注意力模块和统一查询表示模块对目标检测网络 DETR进行改进，从而构建基于改进Transformer 的家畜图像实例分割模型；步骤S3：根据训练集对基于Tran sformer的家畜图像实例分割模型进行训练，得到训练好的分割模型；步骤S4：根据训练好的分割模型对待检测家畜图像数据进行处理，获得实例分割效果。本发明可以有效地解决原始Transformer结构直接用于家畜图像分割时模型训练比较困难、分割性能不佳的问题。权利要求书2页说明书5页附图2页 CN 115115830 A 2022.09.27 CN 115115830 A 1.一种基于改进 Transformer的家畜图像实例分割方法，其特征在于，包括以下步骤：步骤S1：获取高质量的家畜图像，进行标注和图像数据扩增，构建训练集；步骤S2：基于多尺度可变形注意力模块和统一查询表示模块对目标检测网络DETR进行改进，从而构建基于改进Transformer的家畜图像实例分割模型。该模型包含三个主要部分，一个用以提取多尺度图像特征图的主干卷积神经网络(CNN)，一个编码器 ‑解码器架构的改进Transformer和一个生成最终预测结果的统一查询表示模块；步骤S3：根据训练集对基于Transformer的家畜图像实例分割模型进行训练，得到训练好的分割模型；步骤S4：根据训练好的分割模型对待检测家畜图像数据进行处理，获得实例分割效果。 2.根据权利要求1所述的基于改进Transformer的家畜图像实例分割方法，其特征在于，所述高质量的家畜图像的获取需要采集家畜监控视频并以各个家畜出现的场景均衡分布的原则筛选关键帧，所述图像数据扩增处理使用的图像数据增强方法包括几何变换、灰度和彩色空间变换以及添加噪声和滤波。 3.根据权利要求1所述的基于改进Transformer的家畜图像实例分割方法，其特征在于，所述步骤S2具体包括：步骤S21：构建多尺度可变形注意力模块，以多尺度可变形注意力替换DETR的 Transformer中编码器的自注意力和解码器的交叉注意力。设多尺度可变形注意力模块的输出结果为MSDAttn， MSDAttn的计算公式如下：其中，表示输入的多尺度特征图。具体地， l∈[1,L]表示特征图所在层数的索引，由于原始DETR仅采用单尺度特征，因此对于主干网络提取的不同尺度的图像特征图，除了位置嵌入，还额外加入了一个可学习的尺度嵌入以区分不同的特征层。与原始 Transformer计算注意力时对全局位置进行密集采样不同，本模块计算注意力时仅在每个特征层的每个注意力头部采样K个位置(K＜＜HlWl)， m∈[1,M]表示注意力头部的索引， k∈ [1,K]表示采样点的索引。采样点是由参考点加上可学习的位置偏移得到的，公式中为归一化的参考点坐标，由查询嵌入qi经过可学习的线性投射层再由sigmoid函数处理后得出， i∈[1,Nq]表示查询嵌入的索引， Nq为预先设定的远大于图像中待分割的家畜目标个数的值。 Δpmlki表示位置偏移，由于不同的特征层的尺寸可能不同，因此归一化的参考点坐标与位置偏移相加得出采样点坐标之前需要通过运算还原成第l层中参考点的实际坐标。 Amlki表示归一化的注意力权重， Wm、 W′m为多头注意力中的可学习权重。步骤S22：构建统一查询表示模块，即在DETR的预测头部分增加一个与原有类别预测分支和定位分支相平行的掩码嵌入预测分支，从而使Tr ansformer解码器输出的查询嵌入可以统一表征以及并行地完成分类、定位和掩码嵌入预测这三个子任务，模型在训练也可以从多任务学习中受益。掩码嵌入预测分支是一个三层的带有ReLU激活函数的多层感知机 (MLP)，最终输出预测的掩码嵌入。由于查询嵌入是一维的，当其直接用于表征二维的原始掩码时存在维度上的鸿沟，影响分割性能，因此新增的分支预测的是一维的掩码嵌入而非权　利　要　求　书 1/2 页 2 CN 115115830 A 2原始掩码，在模型训练时需要将原始掩码转换为掩码嵌入，预测时需要将掩码嵌入转换为原始掩码。本模块采用主成分分析(PCA)的编码方式进行掩码嵌入与原始二维掩码之间的相互转换。设掩码向量为v， v的维度为d，原始掩码为m， m的尺寸为N ×N，通过PCA将m降维的计算公式如下： f＝argmi n‖ m‑DDTm||2,s.t.DDT＝I 其中表示转换矩阵，表示归一化矩阵。公式的目的是求出f最小时的D，则v和m之间相互转换的计算公式如下： v＝mD,m＝vDT 4.根据权利要求3所述的基于改进Transformer的家畜图像实例分割方法，其特征在于，基于Transformer的家畜图像实例分割模型总的损失函数公式如下： Loss＝ λcls·Lcls+λbox·Lbox+λmask·Lmask 其中， λcls、 λbox、 λmask为分类、定位和掩码嵌入预测三个损失的不同权重，分别为1.5、 3.75、 2.25 。 5.根据权利要求1所述的基于改进Transformer的家畜图像实例分割方法，其特征在于，所述步骤S3具体包括：步骤S31：采用迁移学习的思想，利用网络上公开的大型数据集上预训练好的模型权重对本网络中的权重进行初始化，以加快训练时间，降低网络模型的收敛难度。步骤S32：使用Adam优化器对模型进行训练，训练至网络收敛以获得模型的最优参数，得到训练好的基于Transformer的家畜图像实例分割模型。步骤S33：训练完成后，使用步骤S1中的测试集样本对训练完成后的基于Transformer 的家畜图像实例分割模型进行测试，验证模型的效果。权　利　要　求　书 2/2 页 3 CN 115115830 A 3

专利 一种基于改进Transformer的家畜图像实例分割方法

专利一种基于改进Transformer的家畜图像实例分割方法