(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211133367.1
(22)申请日 2022.09.17
(71)申请人 南通大学
地址 226019 江苏省南 通市崇川区啬园路9
号
(72)发明人 周伯俊 顾菊平 杨慧 程天宇
蒋凌 赵佳皓 言淳恺
(74)专利代理 机构 南京经纬专利商标代理有限
公司 32200
专利代理师 王毅
(51)Int.Cl.
G06V 10/82(2022.01)
G06V 10/77(2022.01)
G06V 10/764(2022.01)
G06N 3/08(2006.01)G06N 3/04(2006.01)
(54)发明名称
一种基于语义属性视觉转换重构器的深度
神经网络算法
(57)摘要
本发明属于人工智能算法技术领域, 具体涉
及一种基于语义属性视觉转换重构器的深度神
经网络算法。 首先利用语义属性模块B1获取图像
关键部件位置坐标, 并将关键部件位置所在区域
内的像素值转换为语义属性特征矢量, 同时利用
位置矢量模块B2将位置坐标通过线性全连接层
转换为位置特征矢量, 然后利用多层语义属性转
换器B3对语义属性特征矢量和位置特征矢量相
加后的特征进行转换得到离散语义属性特征, 最
后利用语义目标重构器B4对离散语义属性特征
建立图模型从而得到图像的最终特征表示。 通过
模块B1、 B2、 B3、 B4组成的基于语义属性视觉转换
重构器的深度神经网络算法对数字图像进行处
理, 能够提高计算机对图像中语义物体的建模能
力和空间表示能力。
权利要求书3页 说明书7页 附图1页
CN 115482449 A
2022.12.16
CN 115482449 A
1.一种基于语义属性视觉转换重构器的深度神经网络算法, 其特征在于, 包括如下步
骤:
步骤1, 构建语义属性模块B1, 提取图像的语义属性特 征矢量及关键 部件的位置坐标;
步骤2, 构建位置矢量模 块B2, 利用线性全连接层将关键部件的位置坐标转换为d维的位
置特征矢量;
步骤3, 构建L层的语义属性转换器B3, 对语义属性特征矢量和位置 特征矢量相加后的特
征进行转换得到K个语义特征矢量, 其中每层语义属 性转换器由语义注意力计算模块和前
馈全连接层组成;
步骤4, 构建图像的语义目标重构器B4, 将K个语义特征矢量表示为图的节点, 计算节点
两两之间的相似性系 数, 得到目标图像的重构矩阵P, 计算该矩阵的C个特征向量并将其级
联起来作为目标图像的重构向量;
步骤5, 通过损失函数计算目标图像的重构向量与图像的真实标签的误差值, 利用误差
值反向训练优化网络参数, 使该算法达 到最优。
2.根据权利要求1所述的一种基于语义属性视觉转换重构器的深度神经网络算法, 其
特征在于, 所述 步骤1的具体步骤如下:
S11: 收集若干关于语义属性的图像小块, 使用这些图像小块内的像素值向量训练K类
分类器C(·);
S12: 对于任一幅图像被表示为I(x,y), 其 中(x,y)表示图像内任意像素点, 分别计算该
点在水平方向和垂直方向上的一阶梯度Ix和Iy, 以及水平方向和垂直方向上的二阶梯度
和
建立梯度相关矩阵即:
S13: 计算矩阵M的特征值以及 迹, 其中特征值被表示为λ1, λ2, 矩阵的迹被表示为ρ, 定义
属性检测候选区域 函数:
其中, t为可调参数; 判断N与 阈值T之间的关系, 当N大于T时, 则(x,y)视为语义属性候
选区域点;
S14: 以(x,y)为中心将半径为r的图像小块内的像素值转化为向量输入到训练好的分
类器C(·)中输出K个语义属性类别的概率值, 同时获取图像的K个关键部件; 其中第k个关
键部件的位置坐标表示 为(xk,yk);
S15: 以提取的关键部件位置坐标为中心将半径为r内每个通道的图像区域的像素值转
换为d维的语义属性特 征矢量, 其中第k个关键 部件的语义属性特 征矢量表示 为
3.根据权利要求1所述的一种基于语义属性视觉转换重构器的深度神经网络算法, 其
特征在于, 所述 步骤2的具体步骤如下:
S21: 构建d维的线性全连接层Ψω(·); 其中, w 为全连层参数;
S22: 利用线性全连接层将关键部件的位置坐标转换为d维的位置特征矢量, 其中第k个权 利 要 求 书 1/3 页
2
CN 115482449 A
2关键部件的位置坐标转换后的d维位置特 征矢量 ψk, 由ψk=Ψw(xk,yk)计算得到 。
4.根据权利要求1所述的一种基于语义属性视觉转换重构器的深度神经网络算法, 其
特征在于, 所述 步骤3的具体步骤如下:
S31: 对于图像的K个关键部件, 将对应的位置特征矢量与语义属性特征矢量进行叠加
得到新的语义属性特征矢量, 其中第k个 关键部件的语义属性特征矢量的叠加变换公式为:
zk=zk+lk;
S32: 将经过S31处理后的语义属性特征矢量组合成输入矩阵
利用L层语义属 性转换器的语义注意力计算模块和前馈全连层对其进行逐层变换处理, 具
体如下:
其中第l层的语义注意力计 算模块的输入语义属性特征矢量矩阵表示为
此层中对其进行自身转化的线性矩阵分别表示为
分别与Zl相乘得到查询
矩阵Q=[q1,q2,…qK], 关键值矩阵M=[m1,m2,…mK], 价值矩阵V=[v1,v2,…vK], 即:
利用余弦相似性函数计算查询矩阵Q与价值矩阵V每个元素之间的相似性系数, 得到注
意力矩阵
其中第ij个元 素的计算公式为:
基于上述注意力矩阵对语义属性特 征矢量矩阵进行转换 得到
其计算公式如下:
每层语义属性转换器还包括前馈全连层FW(·), 其中W为网络层中的参数矩阵, 前馈全
连层对
进行转换, 得到第l层的离 散语义属性特 征矩阵表示 为:
5.根据权利要求1所述的一种基于语义属性视觉转换重构器的深度神经网络算法, 其
特征在于, 所述 步骤4的具体步骤如下:
S41: 经过L层语义属性 转换器之后的离散语义属性特 征矩阵被表示 为
将这K个语义属性特 征矢量表示 为图的节点, 任意两个节点之间的相似性系数计算公式为:
S42: 建立目标图像的重构矩阵
计算该矩阵的C个特征向量,权 利 要 求 书 2/3 页
3
CN 115482449 A
3
专利 一种基于语义属性视觉转换重构器的深度神经网络算法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:04:44上传分享