专利 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210990512.1 (22)申请日 2022.08.18 (71)申请人中科天网（广东）科技有限公司地址 510000 广东省广州市越秀区先烈中路100号大院23 -1栋八楼 (72)发明人陈岸明　温峻峰　林群雄　洪小龙　孙全忠　李萍　罗海涛　 (74)专利代理机构广东金穗知识产权代理事务所(普通合伙) 44852 专利代理师钟文华 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/52(2022.01) G06V 10/40(2022.01) G06V 10/764(2022.01)G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06F 16/583(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备 (57)摘要本发明公开了一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备，方法步骤：利用网络模型中特征编码模块的外观编码和结构编码子模块实现对不同行人图像外观特征和结构特征的分别提取；所述网络模型中特征解码模块的解码器实现对外观特征和结构特征的融合并生成新的行人图像，实现对所输入行人图像的恒等映射和不同行人图像间的交叉映射；所述对抗性判别模块提取行人图像的多尺度特征，实现对生成图像的对抗性判别；将生成的恒等映射图像与交叉映射图像均输入基于ResNet ‑50与非局部注意力机制的行人辨别模块；根据不同学习目标对各网络进行联合训练直至损失函数收敛，最终将行人辨别模块所提取的特征用于实现行人再识别。权利要求书3页说明书6页附图3页 CN 115294655 A 2022.11.04 CN 115294655 A 1.一种基于非局部机制的多级模块特征的对抗生成行人再识别方法，该方法构建的网络模型包括特征编码模块、特征解码模块、对抗性判别模块以及行人辨别模块，其特征在于，所述特征编码模块含有外观编码和结构编码两个子模块，实现对行人图像外观特征和结构特征的分别提取；所述特征解码模块通过对同一或不同行人的外观特征和结构特征进行融合解码，实现对所输入行人图像的恒等映射或不同行人图像间的交叉映射生成不同姿态、衣着的行人图像；所述对抗性判别模块提取所输入图像的多尺度特征，实现对生成图像与真实图像的判别；所述行人辨别模块利用基于ResNet50与非局部注意力机制的神经网络实现对所生成图像特征的提取与分类，最终在联合训练完成后将所述行人辨别模块所提取的特征用于行人再识别任务的行人图像查询。 2.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法，其特征在于：在生成对抗网络中引入所述结构编码模块学习行人的姿势等特征，控制图片生成的内容，保证了图片的生成质量的同时增加了数据的多样性，与基于姿态引导的生成相比，此算法不使用任何额外的姿态信息辅助，更加简单易行，不会受人工标记影响。 3.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法，其特征在于：在生成对抗网络中引入所述结构编码模块学习行人的姿势等特征，控制图片生成进一步的，在外观编码中引入非局部注意力机制，充分学习了网络长距离卷积计算中的空间依赖关系，学习到了图像不同空间区域的关联信息，更有利于实现对不同行人图像的区分。 4.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法，其特征在于：所述特征编码模块含有外观编码和结构编码两个子模块，所述外观编码子模块用于对输入图像提取外观信息和身份信息，生成外观特征编码，其网络以Resnet ‑50 网络为主干，并在主干网络中间引入非局部注意力模块，捕获空间域中不同局部感受野间的长距离依赖关系，进一步增强网络特征提取能力；其中结构编码子模块用于提取输入图像结构信息，输出结构特征编码，它由五个卷积层、三个两层残差块及空间池化金字塔层组成，此外，每个卷积层后都有归一化层和ReLu激活层。 5.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法，其特征在于：所述引入的非局部注意力模块对输入的特征图用三个1 ×1卷积块进行映射分别获得Query、 Key和Value三条支路特征图，接着对Query和每个Key进行点乘计算并通过Softmax函数得到Value支路的权重，将Value支路乘以权重并通过Softmax函数获得最终的自注意力系数，将此系数与原始输入特征相乘得到非局部注意力模块的输出；根据下式实现非局部注意力模块的输出： zi＝Wz×φ(xi)+xi 其中， Wz是要学习的权重矩阵， φ(xi)表示非局部运算和输入 xi形成的残差；所述空间池化金字塔层采用了不同稀疏程度的空洞卷积，获得多粒度的特征，最后将多粒度特征拼接成结构编码模块的输出特征。 6.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法，其特征在于：所述特征解码模块能够将输入的结构编码和外观编码进行解码从而生成图像；它由五个残差块、两个上采样模块及三个卷积层组成；每个残差块中插入了自适应实例归一化层(AdaI N)，其计算公式为：权　利　要　求　书 1/3 页 2 CN 115294655 A 2其中， x和y分别是输入和输出的特征图， μ(x)为输入特征图在某一通道的均值， σ(x)为该通道标准差，最后将外观编码集成为AdaI N的动态权重和偏置。 7.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法，其特征在于：所述对抗性判别模块用于判断输入图像是否为真实图像，由六个卷积层和四个残差块组成，且每个卷积层后采用负斜率为0.2的LReLu激活；判别器采用了多尺度的PathGAN思想，将256 ×128大小的输入图像调整为了三种不同尺寸的图片；分别将大小为 64×32,128×64和256×128的图像作为辨别器输入，让辨别器对三个不同尺度的图像进行真伪判别，计算三者总损失作为输出结果。 8.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法，其特征在于：所述行人辨别模块与外观编码模块具有相同的特征提取层，行人辨别模块只在特征提取层的最后一层缩小全局平均池化层的输出，并使用全连接层实现特征的最终分类。 9.根据权利要求1 ‑8所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法，其特征在于：要上述各模块实现所述的功能，需在训练阶段对不同模块使用适当的损失函数来实现各模块的学习目标，所述特征解码模块当目标是实现对所输入行人图像的恒等映射时，为保证解码器具有重建能力，用下式作为恒等映射生成过程的损失函数：其中， xi为原始图像， ai和si分别为原始图像的外观编码和结构编码， G( ·)为所述解码器， ||·||1为L1范数度量形式；此外，解码器还能够根据同一行人的不同姿态进行生成，将来自原始图像xi的结构与来自另一图像xt的外观组合，生成图像其损失函数如下所示：其中， xi为原始图像， at和si分别为另一图像的外观编码和原始图像的结构编码， G( ·) 为所述解码器， || ·||1为L1范数度量形式，这种生成同一身份、同一外观、不同姿态的生成图像有利于网络更好的学习行人的外观特征；所述对抗性判别模块的学习目标是使网络能够对生成图像与原始的真实图像实现区分，在此采用的是基于WGAN的对抗损失函数： Ladv＝E[D(xi)‑D(G(ai,sj))] 其中， xi为原始图像， ai和sj分别为原始图像的外观编码和另一图像的结构编码， G( ·) 为所述解码器， D(·)为所述判别器；所述行人辨别模块的学习目标是尽可能对不同行人进行区分，因此采用三元组损失函数和交叉熵损失函数分别对行人特征和行人身份信息进行约束，其中三元组损失函数如下所示： Ltri＝(da,p‑da,n+α )+ 其中， da,p为正样本对间的距离， da,n为负样本间的距离， α 为人为设置的阈值， (z)+表示 max(z,0)，交叉熵损失函数如下所示：其中， yi为原始图像xi的真实类别，为含有xi外观编码的生成图像，为计算权　利　要　求　书 2/3 页 3 CN 115294655 A 3

专利 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备

专利一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备