专利 用于3D人体姿态估计的多视角特征融合方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210460455.6 (22)申请日 2022.04.24 (71)申请人湖南大学地址 410000 湖南省长沙市岳麓区麓山南路麓山门 (72)发明人肖德贵　魏钰麒　李健芳　 (74)专利代理机构长沙朕扬知识产权代理事务所(普通合伙) 43213 专利代理师何湘玲 (51)Int.Cl. G06V 10/80(2022.01) G06K 9/62(2022.01) G06V 40/20(2022.01) G06V 20/64(2022.01) G06V 10/82(2022.01)G06N 3/08(2006.01) (54)发明名称用于3D人体姿态估计的多视角特征融合方法及系统 (57)摘要本发明公开了用于3D人体姿态估计的多视角特征融合方法及系统，该方法包括：获取需要姿态估计的不同视角的目标图像；将目标图像经过图像预处理后，输入到训练好的MVP ‑att姿态估计模型中，输出3D人体姿态估计的结果；所述 MVP‑att姿态估计模型通过以下步骤训练得到：通过编码器对多视角输入的多个目标图像分别进行采样，提取得到多个单视图的2D人体姿态表达的深度特征图；输入特征转换模块，实现多视图的深度特征图与相机姿态的解耦；使用基于混合注意力机制的多视角特征融合机制模块从解耦后的深度特征中自动选择有效深度特征，按照视角融合成统一的3D人体姿态表征。本发明能够将任意数量的多视图深度特征聚合成3D人体姿态表征。权利要求书2页说明书7页附图2页 CN 114758205 A 2022.07.15 CN 114758205 A 1.一种用于 3D人体姿态估计的多视角特征融合方法，其特征在于，包括以下步骤：获取需要姿态估计的不同视角的目标图像；将目标图像经过图像预处理后，输入到训练好的MVP ‑att姿态估计模型中，输出3D人体姿态估计的结果；所述MVP‑att姿态估计模型通过以下步骤训练得到：通过编码器对多视角输入的多个目标图像分别进行采样，提取得到多个单视图的2D人体姿态表达的深度特征图；采用特征转换模块，将相机投影矩阵条件作用于每个深度特征图的图像坐标，映射转换为世界坐标，实现多视图的深度特征图中的深度特征进行标准化以及与相机姿态的解耦；使用基于混合注意力机制的多视角特征融合机制模块从解耦后的深度特征中自动选择有效深度特征，按照视角融合成统一的3D人体姿态表征。 2.根据权利要求1所述的用于3D人体姿态估计的多视角特征融合方法，其特征在于，所述MVP‑att姿态估计模型的训练步骤，还包括：将3D人体姿态表征输入到使用相机投影矩阵条件作用的特征转换模块，输出特征融合后各个视角的深度特征；将特征融合后各个视角的深度特征输入到解码器中获得关节点二维热图；使用可微直接线性变换方法将多视角的关节点二维热图映射到三维空间，生成表征人体关节点在三维空间位置的三维人体骨架。 3.根据权利要求1所述的用于3D人体姿态估计的多视角特征融合方法，其特征在于，所述自动选择有效深度特征，包括以下步骤：先通过混合注意力机制建模解耦后的深度特征之间的相关性，然后深度学习每个通道的深度特征的注意力得分，自动在不同视角的深度特征集合中选择注意力得分符合要求的深度特征作为有效深度特征。 4.根据权利要求2所述的用于3D人体姿态估计的多视角特征融合方法，其特征在于，所述MVP‑att姿态估计模型在训练过程中，通过最小化二维关节点的平均误差来监督模型的训练，损失函数如下：其中，表示第k个视角的第j个关节的真实二维坐标；是模型预测的第k个视角第j 个关节的二维坐标。 5.根据权利要求4所述的用于3D人体姿态估计的多视角特征融合方法，其特征在于，所述MVP‑att姿态估计模型在训练过程中，再通过以下损失函数公式微调多视角3D人体姿态估计模型：权　利　要　求　书 1/2 页 2 CN 114758205 A 2其中， L3D‑MPJPE是所有关节点的预测位置与地面真值位置的平均欧氏距离，其中是世界坐标系下第j个关节点的真实三维坐标， pj为模型预测的第j个关节点的三维坐标。 6.根据权利要求1至5 中任一项所述的用于3D人体姿态估计的多视角特征融合方法，其特征在于，所述基于混合注意力机制的多视角特征融合机制模块包括：级联的通道注意力机制单元和单通道局部注意力机制单元；用于对不同特征通道的注意力加权计算、同一特征通道不同局部的注意力加权计算，并依据计算得到的权值，完成对应的特征通道加权求和、同一特征通道局部加权求和，得到每个通道的深度特征的注意力得分。 7.根据权利要求6所述的用于 3D人体姿态估计的多视角特征融合方法，其特征在于，所述单通道局部注意力机制单元，包括：低维嵌入全连接层、 ReLU非线性激活层、维度恢复全连接层三个子结构，三者以级联的方式连接；低维嵌入全连接层的神经元数目小于或等于单通道局部注意力机制子模块输入的特征维度，维度恢复全连接层的神经元数目等于单通道局部注意力机制子模块输入的特征维度。 8.一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7任一所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 114758205 A 3

专利 用于3D人体姿态估计的多视角特征融合方法及系统

专利用于3D人体姿态估计的多视角特征融合方法及系统