安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210083587.1 (22)申请日 2022.01.21 (71)申请人 深圳壹账通科技 服务有限公司 地址 518000 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (入驻深圳市 前海商务秘书 有限公司) (72)发明人 陈家豪 徐亮  (74)专利代理 机构 上海汉之律师事务所 31378 专利代理师 冯华 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/186(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于关键词指导的问答知识抽取方法、 装 置、 设备及 介质 (57)摘要 本发明涉及人工智能技术领域, 提供一种基 于关键词指导的问答知识抽取方法、 装置、 设备 及介质。 该方法包括获取目标问题语句并抽取出 其中的若干第一关键词, 第一关键词为出现在关 键词词汇表中的关键词; 获取每个第一关键词对 应的三元 组, 并将第一关键词对应的三元组转换 为纯文本语句, 作为目标问题语句需要的潜在知 识点; 基于目标问题语句后的文本生成区中的已 有文本来对 各潜在知识点进行重要程度排序, 以 获取重要程度最高的潜在知识点; 根据重要程度 最高的潜在知识点和文本生成区中的已有文本 来进行文本生成。 本申请知识点是在知识抽取器 中一次性获得, 并且依靠排序器来选择性生成, 所以极大减少了开放问题知识抽取的前后逻辑 不一致问题。 权利要求书2页 说明书10页 附图3页 CN 114490984 A 2022.05.13 CN 114490984 A 1.一种基于关键词指导的问答知识抽取 方法, 其特 征在于, 包括: 获取目标问题语句并抽取出所述目标问题语句中的若干第 一关键词, 所述第 一关键词 为出现在关键词 词汇表中的关键词; 根据三元组图谱获取每个所述第 一关键词对应的三元组, 所述三元组图谱中存储有关 键词和三元组的对应关系; 将所述第一关键词对应的三元组转换为纯文本语句, 作为所述目标问题语句需要的潜 在知识点; 基于所述目标问题语句后的文本生成区中的已有文本来对各所述潜在知识点进行重 要程度排序, 以获取重要程度最高的潜在 知识点; 根据所述重要程度最高的潜在知识点和所述文本生成区中的已有文本来进行文本生 成。 2.根据权利要求1所述的基于关键词指导的问答知识抽取方法, 其特征在于, 所述关键 词词汇表的构建方法包括: 收集目标 领域的语料文本数据, 以构成语料文本集; 利用中文自然语言处理工具识别语料文本数据中的指定词性的词汇, 所述指定词性包 括名词和动词; 采用TF‑IDF算法对识别到的所有指定词性的词汇进行排序; 提取排序靠前的预设数量的词汇作为关键词 词汇, 构建 关键词词汇表。 3.根据权利要求1所述的基于关键词指导的问答知识抽取方法, 其特征在于, 所述三元 组图谱的构建方法包括: 收集目标 领域的语料文本数据, 以构成语料文本集; 根据预定义的关系集合, 基于关系抽取算法在所述语料文本集中的语料文本数据中抽 取所述关系集 合中的关系; 基于序列 标注的方法, 在所述语料文本数据中获取抽取到的每个关系连接两个实体来 构造所述 三元组图谱。 4.根据权利要求1所述的基于关键词指导的问答知识抽取方法, 其特征在于, 通过训练 好的知识抽取器来抽取 出所述目标问题语句中的若干所述第一关键词; 所述知识抽取器的训练方法包括: 抽取出所述目标领域的问答数据集中每个回答的第二关键词, 并作标记, 以构成第一 训练集, 其中, 所述第二关键词为出现在所述关键词 词汇表中的关键词; 利用所述第一训练集对所述知识抽取器进行训练。 5.根据权利要求1所述的基于关键词指导的问答知识抽取方法, 其特征在于, 基于所述 目标问题语句后的文本生成区中的已有文本, 通过训练好的知识排序器来对各所述潜在知 识点进行重要程度排序, 以获取重要程度最高的潜在 知识点; 所述知识排序器的训练方法包括: 抽取出所述目标领域的问答数据集中每个回答的第 二关键词, 并作标记, 其中, 所述第 二关键词为出现在所述关键词 词汇表中的关键词; 根据所述三元组图谱获取所述第 二关键词对应的三元组, 并将所述三元组转换为纯文 本语句加入到所述目标 领域的问答数据集中, 以构成第二训练集;权 利 要 求 书 1/2 页 2 CN 114490984 A 2利用所述第二训练集对所述知识排序器进行训练。 6.根据权利要求1所述的基于关键词指导的问答知识抽取方法, 其特征在于, 所述基于 关键词指导的问答知识抽取 方法包括: 根据预定义的模板来将所述第 一关键词对应的三元组转换为正常的自然语言句子, 作 为所述第一关键词对应的三元组的纯文本语句。 7.根据权利要求1所述的基于关键词指导的问答知识抽取方法, 其特征在于, 所述基于 关键词指导的问答知识抽取 方法还包括: 迭代执行如下步骤直至生成所述目标问题语句的回答: 基于所述目标问题语句后的文本生成区中的已有文本来对各所述潜在知识点进行重 要程度排序, 以获取重要程度最高的潜在 知识点; 根据所述重要程度最高的潜在知识点和所述文本生成区中的已有文本来进行文本生 成。 8.一种基于关键词指导的问答知识抽取装置, 其特征在于, 所述基于关键词指导的问 答知识抽取装置包括: 知识抽取模块, 用于获取目标问题语句并抽取出所述目标问题语句中的若干第 一关键 词, 所述第一关键词为出现在关键词 词汇表中的关键词; 三元组获取模块, 用于根据三元组图谱获取每个所述第一关键词对应的三元组, 所述 三元组图谱中存 储有关键词和三元组的对应关系; 知识点获取模块, 用于将所述第一关键词对应的三元组转换为纯文本语句, 作为所述 目标问题语句需要的潜在 知识点; 知识排序模块, 用于基于所述目标问题语句后的文本生成区中的已有文本来对各所述 潜在知识点进行重要程度排序, 以获取重要程度最高的潜在 知识点; 文本生成模块, 用于根据所述重要程度最高的潜在知识点和所述文本生成区中的已有 文本来进行文本生成。 9.一种电子设备, 其特征在于, 包括存储器、 处理器及存储在存储器上并可在处理器上 运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至7中 任一项所述方法的步骤。 10.一种计算机可读存储介质, 其上存储于计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至7中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114490984 A 3

.PDF文档 专利 基于关键词指导的问答知识抽取方法、装置、设备及介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于关键词指导的问答知识抽取方法、装置、设备及介质 第 1 页 专利 基于关键词指导的问答知识抽取方法、装置、设备及介质 第 2 页 专利 基于关键词指导的问答知识抽取方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:56:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。