安全公司报告
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111647164.X (22)申请日 2021.12.3 0 (71)申请人 汉海信息技 术 (上海) 有限公司 地址 200050 上海市长 宁区安化路492号4 幢2楼C201 (72)发明人 金溆林  (74)专利代理 机构 北京曼威知识产权代理有限 公司 11709 代理人 邓超 (51)Int.Cl. G06F 40/295(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种信息提取的方法及装置 (57)摘要 本说明书公开了一种信息提取的方法及装 置, 从获取的文本数据中确定 各实体名称以及各 标识信息, 针对每个实体名称, 按照文本顺序确 定该实体名 称与相邻的其他实体名 称之间的各 标识信息, 作为对应该实体名称的标识信息, 针 对与该实体名称对应的每个标识信息, 确定该实 体名称以及两者之间的文本, 确定特征向量, 通 过将特征向量输入决策树模型, 确定该实体名称 与该标识信息的关联关系, 从而提取出该文本数 据中关联的信息。 可见, 本方法可确定各实体名 称与各标识信息的关联关系, 以提取与各实体名 称相关的信息, 提高了提取信息的效率。 权利要求书2页 说明书12页 附图3页 CN 114330347 A 2022.04.12 CN 114330347 A 1.一种信息提取的方法, 其特 征在于, 包括: 获取文本数据; 确定所述文本数据中的各实体名称以及各 标识信息; 针对每个实体名称, 按照所述文本数据的文本顺序, 确定距离该实体名称最近的其他 实体名称, 并确定该实体名称与所述其他实体名称之间的标识信息, 作为与该实体名称对 应的标识信息; 针对与该实体名称对应的每个标识信 息, 根据该实体名称与 该标识信 息之间的文本数 据以及该实体名称, 确定该实体名称对应该 标识信息的特 征向量; 将该特征向量输入训练完成的决策树模型, 得到该实体名称与 该标识信 息之间的关联 关系, 根据所述关联关系提取与该实体名称相关的信息 。 2.根据权利要求1所述的方法, 其特征在于, 确定所述文本数据中的各实体名称, 具体 包括: 对所述文本数据进行分句处 理, 确定各语句对应的子文本数据; 针对每个子文本数据, 将该子文本数据输入到训练完成的注意加权的第 一长短期记忆 网络模型中, 确定所述第一长短期记 忆网络模型的输出 结果; 根据所述输出 结果, 确定该子文本数据中包 含的实体名称。 3.根据权利要求1所述的方法, 其特征在于, 确定所述文本数据中的各标识信息, 具体 包括: 对所述文本数据进行分句处 理, 确定各语句对应的子文本数据; 针对每个子文本数据, 将该子文本数据输入到训练完成的注意加权的第 二长短期记忆 网络模型中, 确定所述第二长短期记 忆网络模型的输出 结果; 根据所述输出 结果, 确定该子文本数据中包 含的地址类型的标识信息 。 4.根据权利要求1所述的方法, 其特征在于, 确定所述文本数据中的各标识信息, 具体 包括: 对所述文本数据进行分句处 理, 确定各语句对应的子文本数据; 针对每个子文本数据, 根据该子文本数据以及预设的各正则表达式, 确定该子文本数 据中与预设的各正则表达式匹配的各目标文本; 针对每个目标文本, 根据该目标文本对应的正则表达式, 确定该目标文本所属标识信 息的类型, 其中, 所述标识信息的类型至少包括营业时间以及联系信息 。 5.根据权利要求1所述的方法, 其特征在于, 根据 该实体名称与 该标识信 息之间的文本 数据以及该实体名称, 确定该实体名称对应该 标识信息的特 征向量, 具体包括: 根据该实体名称与 该标识信 息之间的文本数据, 确定该实体名称与 该标识信 息之间的 字符数量, 作为距离特 征; 确定该实体名称的字符特 征; 根据所述距离特 征以及所述字符特 征, 确定该实体名称对应该 标识信息的特 征向量。 6.根据权利要求1所述的方法, 其特征在于, 根据 所述关联关系提取与 该实体名称相关 的信息之前, 所述方法还 包括: 根据该实体名称以及与该实体名称对应的标识信 息, 确定该实体名称以及所述标识信 息的格式信息;权 利 要 求 书 1/2 页 2 CN 114330347 A 2根据所述格式信 息以及预设的格式模板, 确定所述格式信 息与所述格式模板的匹配结 果; 当所述格式信息与所述格式模板匹配时, 根据所述格式模板对应的关联关系, 确定所 述实体名称和与该实体名称对应的标识信息的关联关系。 7.根据权利要求2所述的方法, 其特征在于, 根据所述输出结果, 确定该子文本数据中 包含的实体名称, 具体包括: 根据所述第一长短期记忆网络模型的输出结果, 确定该子文本数据中包含的实体名 称; 将该子文本数据输入到训练完成的命名实体识别模型中, 确定所述命名实体识别模型 的输出结果; 根据所述命名实体识别模型的输出 结果, 确定该子文本数据中包 含的待选名称; 从各待选名称中, 确定与各实体名称的相似度均不大于预设阈值的待选名称, 作为该 子文本数据中包 含的实体名称。 8.一种信息提取的装置, 其特 征在于, 包括: 获取模块, 用于获取文本数据; 确定模块, 用于确定所述文本数据中的各实体名称以及各 标识信息; 对应模块, 用于针对每个实体名称, 按照所述文本数据的文本顺序, 确定距离该实体名 称最近的其他实体名称, 并确定该实体名称与所述其他实体名称之间的标识信息, 作为与 该实体名称对应的标识信息; 特征向量模块, 用于针对与该实体名称对应的每个标识信息, 根据该实体名称与该标 识信息之间的文本数据以及该实体名称, 确定该实体名称对应该 标识信息的特 征向量; 提取模块, 用于将该特征向量输入训练完成的决策树模型, 得到该实体名称与该标识 信息之间的关联关系, 根据所述关联关系提取与该实体名称相关的信息 。 9.一种计算机可读存储介质, 其特征在于, 所述存储介质存储有计算机程序, 所述计算 机程序被处 理器执行时实现上述权利要求1 ‑7任一项所述的方法。 10.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述程序时实现上述权利要求1 ‑7任一项所述的方 法。权 利 要 求 书 2/2 页 3 CN 114330347 A 3

.PDF文档 专利 一种信息提取的方法及装置

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种信息提取的方法及装置 第 1 页 专利 一种信息提取的方法及装置 第 2 页 专利 一种信息提取的方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:46:42上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。