(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210990512.1
(22)申请日 2022.08.18
(71)申请人 中科天网 (广东) 科技有限公司
地址 510000 广东省广州市越秀区先烈中
路100号大院23 -1栋八楼
(72)发明人 陈岸明 温峻峰 林群雄 洪小龙
孙全忠 李萍 罗海涛
(74)专利代理 机构 广东金穗知识产权代理事务
所(普通合伙) 44852
专利代理师 钟文华
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 20/52(2022.01)
G06V 10/40(2022.01)
G06V 10/764(2022.01)G06V 10/774(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06F 16/583(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于非局部机制的多级模块特征的对
抗生成行人再识别方法、 装置和设备
(57)摘要
本发明公开了一种基于非局部机制的多级
模块特征的对抗生成行人再识别方法、 装置和设
备, 方法步骤: 利用网络模型中特征编码模块的
外观编码和结构编码子模块实现对不同行人图
像外观特征和结构特征的分别提取; 所述网络模
型中特征解码模块的解码器实现对外观特征和
结构特征的融合并生成新的行人图像, 实现对所
输入行人图像的恒等映射和不同行人图像间的
交叉映射; 所述对抗性判别模块提取行人图像的
多尺度特征, 实现对生成图像的对抗性判别; 将
生成的恒等映射图像与交叉映射图像均输入基
于ResNet ‑50与非局部注意力机制的行人辨别模
块; 根据不同学习目标对各网络进行联合训练直
至损失函数收敛, 最终将行人辨别模块所提取的
特征用于实现行 人再识别。
权利要求书3页 说明书6页 附图3页
CN 115294655 A
2022.11.04
CN 115294655 A
1.一种基于非局部机制的多级模块特征的对抗生成行人再识别方法, 该方法构建的网
络模型包括特征编码模块、 特征解码模块、 对抗性判别模块以及行人辨别模块, 其特征在
于, 所述特征编码模块含有外观编码和结构编码两个子模块, 实现对行人图像外观特征和
结构特征的分别提取; 所述特征解码模块通过对同一或不同行人的外观特征和结构特征进
行融合解码, 实现对所输入行人图像的恒等映射或不同行人图像间的交叉映射生成不同姿
态、 衣着的行人图像; 所述对抗性判别模块提取所输入图像的多尺度特征, 实现对生成图像
与真实图像的判别; 所述行人辨别模块利用基于ResNet50与非局部注意力机制的神经网络
实现对所生成图像特征的提取与分类, 最终在联合训练完成后 将所述行人辨别模块所提取
的特征用于行 人再识别任务的行 人图像查询。
2.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别
方法, 其特征在于: 在生成对抗网络中引入所述结构编 码模块学习行人的姿势 等特征, 控制
图片生成的内容, 保证了图片的生成质量的同时增加了数据的多样性, 与基于姿态引导的
生成相比, 此算法不使用任何额外的姿态信息 辅助, 更加简单易行, 不会受人工标记影响。
3.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别
方法, 其特征在于: 在生成对抗网络中引入所述结构编 码模块学习行人的姿势 等特征, 控制
图片生成进一步的, 在外观编码中引入非局部注意力机制, 充分学习了网络长距离卷积计
算中的空间依赖关系, 学习到了图像不同空间区域的关联信息, 更有利于实现对不同行人
图像的区分。
4.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别
方法, 其特征在于: 所述特征编 码模块含有外观编 码和结构编 码两个子模块, 所述外观编码
子模块用于对输入图像提取外观信息和身份信息, 生 成外观特征编码, 其网络以Resnet ‑50
网络为主干, 并在主干网络中间引入非局部注意力模块, 捕获空间域中不同局部感受野间
的长距离依赖关系, 进一步增强网络特征提取能力; 其中结构编码子模块用于提取输入图
像结构信息, 输出结构特征编码, 它由五个卷积层、 三个两层残差块及空间池化金字塔层组
成, 此外, 每 个卷积层后都有归一 化层和ReLu激活层。
5.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别
方法, 其特征在于: 所述引入的非局部注意力模块对输入的特征图用三个1 ×1卷积块进行
映射分别获得Query、 Key和Value三条支路特征图, 接着对Query和每个Key进行点乘计算并
通过Softmax函数得到Value支路的权重, 将Value支路乘以权重并通过Softmax函数获得最
终的自注意力系数, 将此系 数与原始输入特征相乘得到非局部注意力模块的输出; 根据下
式实现非局部注意力模块的输出:
zi=Wz×φ(xi)+xi
其中, Wz是要学习的权 重矩阵, φ(xi)表示非局部运 算和输入 xi形成的残差;
所述空间池化金字塔层采用了不同稀疏程度的空洞卷积, 获得多粒度的特征, 最后将
多粒度特 征拼接成结构编码模块的输出 特征。
6.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别
方法, 其特征在于: 所述特征解码模块能够将输入的结构编码和外观编码进行解码从而生
成图像; 它由五个残差块、 两个上采样模块及三个卷积层组成; 每个残差块中插入了自适应
实例归一 化层(AdaI N), 其计算公式为:权 利 要 求 书 1/3 页
2
CN 115294655 A
2其中, x和y分别是输入和输出的特征图, μ(x)为输入特征图在某一通道的均值, σ(x)为
该通道标准差, 最后将外观编码集成为AdaI N的动态权 重和偏置 。
7.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别
方法, 其特征在于: 所述对抗性判别模块用于判断输入图像是否为真实图像, 由六个卷积层
和四个残差块组成, 且每个卷积层后采用负斜率为0.2的LReLu激活; 判别器采用了多尺度
的PathGAN思想, 将256 ×128大小的输入图像调整为了三种不同尺寸的图片; 分别将大小为
64×32,128×64和256×128的图像作为辨别器输入, 让辨别器对三个不同尺度的图像进行
真伪判别, 计算 三者总损失作为输出 结果。
8.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别
方法, 其特征在于: 所述行人辨别模块与外观编码模块具有相同的特征提取层, 行人辨别模
块只在特征提取层的最后一层 缩小全局平均池化层的输出, 并使用全连接层实现特征的最
终分类。
9.根据权利要求1 ‑8所述的一种基于非局部机制的多级模块特征的对抗生成行人再识
别方法, 其特征在于: 要 上述各模块 实现所述的功能, 需在训练阶段对不同模块使用适当的
损失函数来 实现各模块的学习目标, 所述特征解码模块当目标是实现对所输入行人图像的
恒等映射时, 为保证解码器具有重建能力, 用下式作为恒等映射 生成过程的损失函数:
其中, xi为原始图像, ai和si分别为原始图像的外观编码和结构编码, G( ·)为所述解码
器, ||·||1为L1范数度量形 式; 此外, 解码器还能够 根据同一行人的不同姿态进行生成, 将
来自原始图像xi的结构与来自另一图像xt的外观组合, 生成图像
其损失函数如下 所示:
其中, xi为原始图像, at和si分别为另一图像的外观编码和原始图像的结构编码, G( ·)
为所述解码器, || ·||1为L1范数度量形 式, 这种生成同一身份、 同一外观、 不同姿态的生成
图像有利于网络更好的学习行人的外观特征; 所述对抗性判别模块的学习目标是使网络能
够对生成图像与原 始的真实图像实现区分, 在此采用的是基于WGAN的对抗损失函数:
Ladv=E[D(xi)‑D(G(ai,sj))]
其中, xi为原始图像, ai和sj分别为原始图像的外观编码和另一图像的结构编码, G( ·)
为所述解码 器, D(·)为所述判别器; 所述行人辨别模块的学习目标是尽可能对不同行人进
行区分, 因此采用三元组损失函数和交叉熵损失函数分别对行人特征和行人身份信息进 行
约束, 其中三元组损失函数如下 所示:
Ltri=(da,p‑da,n+α )+
其中, da,p为正样本对间的距离, da,n为负样本间的距离, α 为人为设置的阈值, (z)+表示
max(z,0), 交叉熵损失函数如下 所示:
其中, yi为原始图像xi的真实类别,
为含有xi外观编码的生成图像,
为计算权 利 要 求 书 2/3 页
3
CN 115294655 A
3
专利 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:06:30上传分享