(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210450668.0
(22)申请日 2022.04.27
(71)申请人 天津大学
地址 300072 天津市南 开区卫津路9 2号
(72)发明人 高镇 肖峰
(74)专利代理 机构 天津市北洋 有限责任专利代
理事务所 12 201
专利代理师 程毓英
(51)Int.Cl.
G06F 40/295(2020.01)
G06V 30/40(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
基于神经网络的多信息融合命名实体识别
方法
(57)摘要
本发明涉及一种基于神经网络的多信息融
合命名实体识别方法, 包括以下步骤: 步骤一, 对
于包含实体信息的输入文本, 转化成将文本长度
为n并包含实体信息的文本序列, 通过预训练模
型BERT获取文本特征向量; 通过匹配的方式将文
本长度为n并包含实体信息的文本序列转换成对
应的文字图片; 步骤三, 将步骤二得到的图片经
过卷积模块提取特征; 步骤四, 将步骤一和步骤
三分别提取的文本特征和图像特征拼接后得到
完整的融合特征; 步骤五, 通过融合特征来构建
标注矩阵; 步骤六, 基于标注矩阵实现命名实体
识别。
权利要求书1页 说明书4页 附图3页
CN 114818711 A
2022.07.29
CN 114818711 A
1.一种基于神经网络的多信息融合命名实体识别方法, 包括以下步骤:
步骤一, 对于包含实体信 息的输入文本, 转化成将文本长度为n并包含实体信 息的文本
序列, 通过预训练模型BERT获取文本特征向量, 输出的文本特征向量表示为
其中n代
表文本长度, k代 表每个字的文本特 征向量的维度;
步骤二, 通过匹配的方式将文本长度为n并包含实体信息的文本序列转换成对应的文
字图片, 每个字转换一张通道数为1的灰度图, 如果某个字不存在BERT字表中对应的ID, 则
转换为一张全0的灰度图;
步骤三, 将步骤二得到的图片经 过卷积模块 提取特征;
所述的卷积模块包括3D卷积块和多个2D卷积块, 分别用来提取图像不同维度的信息,
提取特征方法如下:
1)经过3D卷积块以提取到文字图片的深度信息, 操作如 下: 使用2个卷积核大小为3 ×3
×3的3D卷积层将步骤二得到的文字图片映射到8通道的特 征空间;
2)将3D卷积块的输出分别依次经过4个2D卷积块以提取文字图片的宽度和广度信息,
每个2D卷积块包含一个卷积层和一个最大池化层, 第一个2D卷积块的卷积核大小为3 ×3,
池化层大小为2 ×2, 后面依次经过3个卷积核大小为2 ×2, 池化层大小为2 ×2的2D卷积模
块, 得到最后的特 征
步骤四, 将步骤一和步骤三分别提取的文本特征
和图像特征
拼接后得到完整
的融合特 征
步骤五, 通过融合特 征来构建标注 矩阵;
标注矩阵可以很好的解决实体重叠问题, 在构建标注矩阵时, 由于实体的头一定在实
体的尾前面; 所以, 整个标注矩阵只需要构建上半个就可以了, 即一个矩阵的上三角部分,
从而减少计算资源的使用; 标注矩阵的构建如下: 已知, 文本特征和图像特征融合后为
对应标注矩阵的第一行为
表示取
的所有行的所有列, 第
二行为
表示取
的第2到n行的所有列 …,以此类推, 直到最后一行
为
表示取
的最后一行的所有列, 将其拼接到一起得标注矩阵L
(n+n‑1+n‑2+...+1)×(k+d);
步骤六, 基于标注 矩阵实现命名实体识别。权 利 要 求 书 1/1 页
2
CN 114818711 A
2基于神经 网络的多信息融合命名实体识别方 法
技术领域
[0001]本发明涉及自然语言处 理技术领域, 是一种新型的命名实体识别的抽取 方法。
背景技术
[0002]命名实体识别(NER)(也称为实体识别、 实体分块和实体提取)是信息提取的一个
子任务, 旨在将文本中的命名实体定位并分类为预先定义的类别, 如人员、 组织、 位置、 时间
表达式、 数量、 货币值、 百分比等。 随着自然语言处理领域关系抽取技术的不断发展, 各行各
业产生的大量结构化、 半结构化、 非结构化的海量数据中隐藏的信息得以被挖掘和再开 发,
为社会进步和行业发展提供了新的动力和发展引导作用。
[0003]NER领域常用模型划分为两大类, 一是传统模型, 二是基于深度学习的模型。
[0004]传统模型主 要包括有基于规则的模型, 基于统计学习的方法。
[0005]基于规则的模型往往需要词表、 词汇和领域知识。 这种方法准确率高, 召回率低,
对于新词缺 乏发现能力, 并且往往需要领域专家维护知识库。 基于统计机器学习的方法主
要包括: 隐马尔可夫模型(Hidden Markov Moder,HMM)、 最大熵模型(Maximum Entropy
Model,MEM )、 支持向量机(Support Vector Machine,SVM )、 条件随机场(Conditional
Random Field,CRF)等等。 在基于机器学习的方法中, NER被当作序列标注问题。 利用大规模
语料来学习出标注模型, 从而对句子的各个位置进 行标注。 NER任务中的常用模 型包括生成
式模型HMM、 判别式模型CRF等。 条件随机场(Conditional Random Field, CRF)是NER目前的
主流模型。 条件随机场(CRF)的目标函数不仅考虑输入的状态特征函数, 而且还包含了标签
转移特征函数。 在训练时可以使用SGD学习模型参数。 在已知模型时, 给输入序列求预测输
出序列即求使目标函数最大化的最优序列, 是一个动态规划问题, 可以使用维特比算法进
行解码。 CRF 的优点在于其为一个位置进行标注的过程中可以利用丰富的内部及上下文特
征信息。 但其无法解决实体嵌套问题。 总的来说, 实体识别领域面临的挑战主要有以下两个
方面:
[0006]1、 如何获取 更丰富准确的语义信息表达向量;
[0007]2、 如何解决命名实体识别中的实体重 叠和嵌套问题。
发明内容
[0008]本发明提供了一种基于神经网络的多信息融合命名实体识别方法, 可以获取更丰
富准确的语义信息表达, 并用来避免解决命名实体识别中出现的实体重叠和嵌套问题。 技
术方案如下:
[0009]一种基于神经网络的多信息融合命名实体识别方法, 包括以下步骤:
[0010]步骤一, 对于包含实体信息的输入文本, 转化成将文本长度为n并包含实体信息的
文本序列, 通过预训练模型BERT获取文本特征向量, 输出的文本特征向量表示为
其中
n代表文本长度, k代 表每个字的文本特 征向量的维度;
[0011]步骤二, 通过匹配的方式将文本长度为n并包含实体信息 的文本序列转换成对应说 明 书 1/4 页
3
CN 114818711 A
3
专利 基于神经网络的多信息融合命名实体识别方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:38:17上传分享