专利 一种基于语义属性视觉转换重构器的深度神经网络算法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211133367.1 (22)申请日 2022.09.17 (71)申请人南通大学地址 226019 江苏省南通市崇川区啬园路9 号 (72)发明人周伯俊　顾菊平　杨慧　程天宇　蒋凌　赵佳皓　言淳恺　 (74)专利代理机构南京经纬专利商标代理有限公司 32200 专利代理师王毅 (51)Int.Cl. G06V 10/82(2022.01) G06V 10/77(2022.01) G06V 10/764(2022.01) G06N 3/08(2006.01)G06N 3/04(2006.01) (54)发明名称一种基于语义属性视觉转换重构器的深度神经网络算法 (57)摘要本发明属于人工智能算法技术领域，具体涉及一种基于语义属性视觉转换重构器的深度神经网络算法。首先利用语义属性模块B1获取图像关键部件位置坐标，并将关键部件位置所在区域内的像素值转换为语义属性特征矢量，同时利用位置矢量模块B2将位置坐标通过线性全连接层转换为位置特征矢量，然后利用多层语义属性转换器B3对语义属性特征矢量和位置特征矢量相加后的特征进行转换得到离散语义属性特征，最后利用语义目标重构器B4对离散语义属性特征建立图模型从而得到图像的最终特征表示。通过模块B1、 B2、 B3、 B4组成的基于语义属性视觉转换重构器的深度神经网络算法对数字图像进行处理，能够提高计算机对图像中语义物体的建模能力和空间表示能力。权利要求书3页说明书7页附图1页 CN 115482449 A 2022.12.16 CN 115482449 A 1.一种基于语义属性视觉转换重构器的深度神经网络算法，其特征在于，包括如下步骤：步骤1，构建语义属性模块B1，提取图像的语义属性特征矢量及关键部件的位置坐标；步骤2，构建位置矢量模块B2，利用线性全连接层将关键部件的位置坐标转换为d维的位置特征矢量；步骤3，构建L层的语义属性转换器B3，对语义属性特征矢量和位置特征矢量相加后的特征进行转换得到K个语义特征矢量，其中每层语义属性转换器由语义注意力计算模块和前馈全连接层组成；步骤4，构建图像的语义目标重构器B4，将K个语义特征矢量表示为图的节点，计算节点两两之间的相似性系数，得到目标图像的重构矩阵P，计算该矩阵的C个特征向量并将其级联起来作为目标图像的重构向量；步骤5，通过损失函数计算目标图像的重构向量与图像的真实标签的误差值，利用误差值反向训练优化网络参数，使该算法达到最优。 2.根据权利要求1所述的一种基于语义属性视觉转换重构器的深度神经网络算法，其特征在于，所述步骤1的具体步骤如下： S11：收集若干关于语义属性的图像小块，使用这些图像小块内的像素值向量训练K类分类器C(·)； S12：对于任一幅图像被表示为I(x,y)，其中(x,y)表示图像内任意像素点，分别计算该点在水平方向和垂直方向上的一阶梯度Ix和Iy，以及水平方向和垂直方向上的二阶梯度和建立梯度相关矩阵即： S13：计算矩阵M的特征值以及迹，其中特征值被表示为λ1， λ2，矩阵的迹被表示为ρ，定义属性检测候选区域函数：其中， t为可调参数；判断N与阈值T之间的关系，当N大于T时，则(x,y)视为语义属性候选区域点； S14：以(x,y)为中心将半径为r的图像小块内的像素值转化为向量输入到训练好的分类器C(·)中输出K个语义属性类别的概率值，同时获取图像的K个关键部件；其中第k个关键部件的位置坐标表示为(xk,yk)； S15：以提取的关键部件位置坐标为中心将半径为r内每个通道的图像区域的像素值转换为d维的语义属性特征矢量，其中第k个关键部件的语义属性特征矢量表示为 3.根据权利要求1所述的一种基于语义属性视觉转换重构器的深度神经网络算法，其特征在于，所述步骤2的具体步骤如下： S21：构建d维的线性全连接层Ψω(·)；其中， w 为全连层参数； S22：利用线性全连接层将关键部件的位置坐标转换为d维的位置特征矢量，其中第k个权　利　要　求　书 1/3 页 2 CN 115482449 A 2关键部件的位置坐标转换后的d维位置特征矢量 ψk，由ψk＝Ψw(xk,yk)计算得到。 4.根据权利要求1所述的一种基于语义属性视觉转换重构器的深度神经网络算法，其特征在于，所述步骤3的具体步骤如下： S31：对于图像的K个关键部件，将对应的位置特征矢量与语义属性特征矢量进行叠加得到新的语义属性特征矢量，其中第k个关键部件的语义属性特征矢量的叠加变换公式为： zk＝zk+lk； S32：将经过S31处理后的语义属性特征矢量组合成输入矩阵利用L层语义属性转换器的语义注意力计算模块和前馈全连层对其进行逐层变换处理，具体如下：其中第l层的语义注意力计算模块的输入语义属性特征矢量矩阵表示为此层中对其进行自身转化的线性矩阵分别表示为分别与Zl相乘得到查询矩阵Q＝[q1,q2,…qK]，关键值矩阵M＝[m1,m2,…mK]，价值矩阵V＝[v1,v2,…vK]，即：利用余弦相似性函数计算查询矩阵Q与价值矩阵V每个元素之间的相似性系数，得到注意力矩阵其中第ij个元素的计算公式为：基于上述注意力矩阵对语义属性特征矢量矩阵进行转换得到其计算公式如下：每层语义属性转换器还包括前馈全连层FW(·)，其中W为网络层中的参数矩阵，前馈全连层对进行转换，得到第l层的离散语义属性特征矩阵表示为: 5.根据权利要求1所述的一种基于语义属性视觉转换重构器的深度神经网络算法，其特征在于，所述步骤4的具体步骤如下： S41：经过L层语义属性转换器之后的离散语义属性特征矩阵被表示为将这K个语义属性特征矢量表示为图的节点，任意两个节点之间的相似性系数计算公式为： S42：建立目标图像的重构矩阵计算该矩阵的C个特征向量，权　利　要　求　书 2/3 页 3 CN 115482449 A 3

专利 一种基于语义属性视觉转换重构器的深度神经网络算法

专利一种基于语义属性视觉转换重构器的深度神经网络算法