(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111646536.7
(22)申请日 2021.12.3 0
(71)申请人 中国科学院计算机网络信息中心
地址 100190 北京市海淀区中关村南四街 4
号
(72)发明人 刘峰 许淞源
(74)专利代理 机构 北京君尚知识产权代理有限
公司 11200
专利代理师 李文涛
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/35(2019.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
(54)发明名称
一种融合知识图谱和主题模型的短文本分
类方法
(57)摘要
本发明公开一种融合知识图谱和主题模型
的短文本分类方法, 属于自然语言处理领域, 通
过对知识图谱和主题模型技术的融合, 利用知识
图谱获取外部知识, 进行特征扩展, 在不改变原
文本语义的同时, 能够有效地扩充短文本的特征
内容; 使用扩展后的文本数据训练主题模型, 挖
掘文本之间的语义关联并将其作为扩展特征, 缓
解同义词现象对文本分类任务带来的不准确性,
最终使用支持向量机进行短文本的分类预测。
权利要求书2页 说明书7页 附图2页
CN 114491062 A
2022.05.13
CN 114491062 A
1.一种融合知识图谱和主题模型的短文本分类方法, 其特 征在于, 包括以下步骤:
将已有标签的短文本数据作为训练数据, 进行文本的预处 理;
将所述预处理后的文本进行关键词抽取, 根据抽取得到的候选关键词构建候选关键词
图, 所述候选关键词图由节点、 节点之间的边和边权 重构成, 所述节点即候选关键词;
采用共现关系构造任意两个节点之间的边, 当节点对应的词汇在一预设长度窗口中共
现时, 则两个节点之间存在边, 初始化各个节点的权重, 再迭代计算各节点的权重, 直到收
敛, 再按照各个节点权 重的降序进行排序, 选择 出关键词;
将所述关键词映射到知识图谱中的实体上, 得到候选实体集;
基于文本相似度从所述候选实体集中选取一个与原文语义最相近的实体, 作为目标实
体;
将所述目标实体作为关键词的背景知识, 添加到所述短文本之后对所述短文本进行扩
展, 得到扩展内容, 并作为基于知识图谱 扩展的训练数据集;
根据所述基于知识图谱扩展的训练数据集训练出主题模型, 利用所述主题模型统计所
有词的主题计数和每个文档对应词的主题计数, 得到各个主题的词分布和各个文档的主题
分布, 计算出每 个文档的主题概 率向量;
将所述扩展内容进行向量化得到扩展内容的文本向量, 并将所述主题概率向量与 所述
扩展内容的文本向量 拼接在一 起, 作为分类模型的输入;
将所述分类模型的输入作为训练数据集, 输入到一短文本分类模型中进行训练, 训练
出短文本分类模型, 利用所述训练出 的短文本分类模型对待测的短文本进行分类, 输出分
类结果。
2.如权利要求1所述的方法, 其特征在于, 所述预处理包括对去 除特殊符号, 去 除停用
词和分词。
3.如权利 要求1所述的方法, 其特征在于, 采用Text Rank算法将所述预处理后的文本进
行关键词抽取。
4.如权利 要求1所述的方法, 其特征在于, 所述候选关键词图G=(V,E,W), 其 中节点集V
={V1,V2,…,Vn}, Vn∈S是候选关键词, E={(Vi,Vj)|Vi∈V∧Vj∈V∧wij∈W∧wij≠0}是各个
节点i和j之间的边的集 合, W={wij|1≤i,j≤n} 中的wij是节点i和j之间边的权 重。
5.如权利要求1所述的方法, 其特 征在于, 计算各节点的权 重的公式为:
其中, vi,vj,vk是节点, wij是节点i和j之间边的权重; WS()是节点权重; d为阻尼系数, 表
示图中某一节点指向其他节点的概率; in(vi)表示指向节点vi的节点集合; out(vj)表示vj
指向的节点 集合。
6.如权利要求1所述的方法, 其特征在于, 将所述关键词映射到知识图谱中的实体的映
射关系为f:
其中k为所述关键词, e为所述知识图谱中的某一实体。
7.如权利要求1所述的方法, 其特征在于, 所述基于文本相似度从所述候选实体集中选
取一个与原文语义 最相近的实体的方法为:
遍历得到关键词所对应实体的描述文本集合, 对所有的描述文本进行预处理, 所述预权 利 要 求 书 1/2 页
2
CN 114491062 A
2处理包括分词和移除停用词;
对原短文本的上下文信 息设置一个滑动窗口, 从所述原短文本的词集合中获取关键词
前后的词, 并作为所述关键词的上 下文集合;
使用word2vec将所述关键词的上 下文集合中的词转换为词向量Vc;
将所述描述文本集 合中的每 个预处理后的描述文本转换为词向量Vd;
按照以下公式计算Vc和Vd的相似度:
8.如权利要求1所述的方法, 其特 征在于, 所述主题模型采用LDA主题模型。
9.如权利 要求1或8所述的方法, 其特征在于, 所述主题模型采用所述用Gibbs采样算法
计算文本的主题概率分布和主题的词项概率分布, 根据这两个分布得到每个文档的主题概
率向量。
10.如权利要求1所述的方法, 其特 征在于, 所述短文本分类模型采用SVM模型。权 利 要 求 书 2/2 页
3
CN 114491062 A
3
专利 一种融合知识图谱和主题模型的短文本分类方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 04:43:03上传分享