(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210622714.0
(22)申请日 2022.06.02
(71)申请人 广西师范大学
地址 541004 广西壮 族自治区桂林市七 星
区育才路15号
(72)发明人 柯杰 曾上游
(74)专利代理 机构 深圳博敖专利代理事务所
(普通合伙) 44884
专利代理师 祝美娟
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/771(2022.01)
G06V 10/774(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06V 10/764(2022.01)
(54)发明名称
一种基于卷积神经网络的图像描述语句生
成方法
(57)摘要
本发明公开了一种基于卷积神经网络的图
像描述语句生成方法, 包括: 获取预设MSCOCO数
据集中的数据, 并对获取的数据进行预处理; 采
用预训练的卷积神经网络结合注意力机制策略
对预处理后的数据进行图像信息提取, 并确定重
要图像的特征向量, 将所述重要图像的特征向量
通过一个全 连接层合并, 得到融合特征向量并输
入到解码器中; 通过自适应注 意力机制和双向长
短时记忆网络模 型处理所述融合特征向量, 并生
成图像描述语句。 本发明通过自适应注意力机制
和双向长短时记忆网络模型实现了高质量的图
像描述, 从而可以对序列的前向和后向分别进行
计算, 提升双向长短时记忆网络模型的解码能
力, 进而提升了双向长短时记忆网络模型的整体
性能。
权利要求书2页 说明书6页 附图1页
CN 114925774 A
2022.08.19
CN 114925774 A
1.一种基于卷积神经网络的图像描述语句生成方法, 其特 征在于, 包括:
S1、 获取预设MSCOCO数据集中的数据, 并对获取的数据进行 预处理;
S2、 采用预训练的卷积神经网络结合注意力 机制策略对预处理后的数据进行图像信 息
提取, 并确定 重要图像的特 征向量;
S3、 将所述重要图像的特征向量通过一个全连接层合并, 得到融合特征向量并输入到
解码器中;
S4、 通过自适应注意力机制和双 向长短时记忆网络模型处理所述融合特征向量, 并生
成图像描述语句。
2.根据权利要求1所述的一种基于卷积神经网络的图像描述语句生成方法, 其特征在
于, 所述对获取的数据进行 预处理包括文本数据预处 理和图像数据预处 理;
其中, 文本数据预处 理, 对标题的编码版本进行处 理;
图像数据预处 理, 对图像的尺寸大小 进行统一调整, 并将调整好的图像保存。
3.根据权利要求1所述的一种基于卷积神经网络的图像描述语句生成方法, 其特征在
于, 所述采用预训练的卷积神经网络结合注意力机制策略对预 处理后的数据进行图像信息
提取, 并确定 重要图像的特 征向量包括以下步骤:
S21、 计算 提取出的每个图像特 征向量的初始权 重;
S22、 依次选取 预设阈值数量的初始权 重最大的图像;
S23、 根据选取图像的空间位置信息, 选取出与其相邻的所有图像的特征向量, 作为重
要图像的特 征向量。
4.根据权利要求3所述的一种基于卷积神经网络的图像描述语句生成方法, 其特征在
于, 所述每 个图像特 征向量的初始权 重的计算公式如下:
其中, bt,i,j表示解码器生成第 t个单词时, 位置(i, j)处图像的特征向量的权重, 且1≤i
≤8, 1≤j≤8;
exp(·)表示指数函数;
et,i,j表示权重的中间状态。
5.根据权利要求3所述的一种基于卷积神经网络的图像描述语句生成方法, 其特征在
于, 所述依次选取 预设阈值数量的初始权 重最大的图像中 阈值数量设置为3 。
6.根据权利要求1所述的一种基于卷积神经网络的图像描述语句生成方法, 其特征在
于, 所述S3中所述 解码器为双向长短时记 忆网络模型。
7.根据权利要求1所述的一种基于卷积神经网络的图像描述语句生成方法, 其特征在
于, 通过自适应注意力机制和双向长短时记忆网络模型处理所述融合特征向量, 并生成 图
像描述语句包括以下步骤:
S41、 通过交叉熵损失函数对双向长短时记 忆网络模型进行训练;
S42、 计算 正、 反向长短时记 忆网络在m时刻的隐藏层状态;权 利 要 求 书 1/2 页
2
CN 114925774 A
2S43、 采用求和的方式结合双向运 算的输出 得到当前时刻的隐藏层状态;
S44、 通过自适应注意力机制结合融合特征向量与双 向长短时记忆网络的输出得到单
词概率;
S45、 依次选取m时刻的概率最大的单词作为m时刻的结果, 并将以上单词按照产生顺序
连接并作为网络最后的输出, 完成图像描述。
8.根据权利要求7所述的一种基于卷积神经网络的图像描述语句生成方法, 其特征在
于, 所述通过交叉熵损失函数对双向长短时记 忆网络模型进行训练的计算公式如下:
其中, E表示损失值;
Ω表示类别数;
k表示每一个 类别;
W(k)表示 一个one‑hot向量, o ne‑hot表示一项属性的特 征向量;
pc(k)表示预测样本属于类别c(k)的概率。
9.根据权利要求7所述的一种基于卷积神经网络的图像描述语句生成方法, 其特征在
于, 所述计算 正、 反向长短时记 忆网络在m时刻的隐藏层状态的计算公式如下:
其中, xm表示m时刻正向长短时记 忆网络的输入;
xn‑(m‑1)表示m时刻反向长短时记 忆网络的输入;
LSTM表示双向长短时记 忆网络模型;
分别表示 正、 反向长短时记 忆网络在m时刻的隐藏层状态。
10.根据权利要求7所述的一种基于卷积神经网络的图像描述语句生成方法, 其特征在
于, 所述采用求和的方式结合双向运算的输出得到当前时刻的隐藏层状态的计算公式如
下:
其中,
运算表示对应元 素相加。权 利 要 求 书 2/2 页
3
CN 114925774 A
3
专利 一种基于卷积神经网络的图像描述语句生成方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:44:35上传分享