专利 一种融合知识图谱和主题模型的短文本分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111646536.7 (22)申请日 2021.12.3 0 (71)申请人中国科学院计算机网络信息中心地址 100190 北京市海淀区中关村南四街 4 号 (72)发明人刘峰　许淞源　 (74)专利代理机构北京君尚知识产权代理有限公司 11200 专利代理师李文涛 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称一种融合知识图谱和主题模型的短文本分类方法 (57)摘要本发明公开一种融合知识图谱和主题模型的短文本分类方法，属于自然语言处理领域，通过对知识图谱和主题模型技术的融合，利用知识图谱获取外部知识，进行特征扩展，在不改变原文本语义的同时，能够有效地扩充短文本的特征内容；使用扩展后的文本数据训练主题模型，挖掘文本之间的语义关联并将其作为扩展特征，缓解同义词现象对文本分类任务带来的不准确性，最终使用支持向量机进行短文本的分类预测。权利要求书2页说明书7页附图2页 CN 114491062 A 2022.05.13 CN 114491062 A 1.一种融合知识图谱和主题模型的短文本分类方法，其特征在于，包括以下步骤：将已有标签的短文本数据作为训练数据，进行文本的预处理；将所述预处理后的文本进行关键词抽取，根据抽取得到的候选关键词构建候选关键词图，所述候选关键词图由节点、节点之间的边和边权重构成，所述节点即候选关键词；采用共现关系构造任意两个节点之间的边，当节点对应的词汇在一预设长度窗口中共现时，则两个节点之间存在边，初始化各个节点的权重，再迭代计算各节点的权重，直到收敛，再按照各个节点权重的降序进行排序，选择出关键词；将所述关键词映射到知识图谱中的实体上，得到候选实体集；基于文本相似度从所述候选实体集中选取一个与原文语义最相近的实体，作为目标实体；将所述目标实体作为关键词的背景知识，添加到所述短文本之后对所述短文本进行扩展，得到扩展内容，并作为基于知识图谱扩展的训练数据集；根据所述基于知识图谱扩展的训练数据集训练出主题模型，利用所述主题模型统计所有词的主题计数和每个文档对应词的主题计数，得到各个主题的词分布和各个文档的主题分布，计算出每个文档的主题概率向量；将所述扩展内容进行向量化得到扩展内容的文本向量，并将所述主题概率向量与所述扩展内容的文本向量拼接在一起，作为分类模型的输入；将所述分类模型的输入作为训练数据集，输入到一短文本分类模型中进行训练，训练出短文本分类模型，利用所述训练出的短文本分类模型对待测的短文本进行分类，输出分类结果。 2.如权利要求1所述的方法，其特征在于，所述预处理包括对去除特殊符号，去除停用词和分词。 3.如权利要求1所述的方法，其特征在于，采用Text Rank算法将所述预处理后的文本进行关键词抽取。 4.如权利要求1所述的方法，其特征在于，所述候选关键词图G＝(V,E,W)，其中节点集V ＝{V1,V2,…,Vn}， Vn∈S是候选关键词， E＝{(Vi,Vj)|Vi∈V∧Vj∈V∧wij∈W∧wij≠0}是各个节点i和j之间的边的集合， W＝{wij|1≤i,j≤n} 中的wij是节点i和j之间边的权重。 5.如权利要求1所述的方法，其特征在于，计算各节点的权重的公式为：其中， vi,vj,vk是节点， wij是节点i和j之间边的权重； WS()是节点权重； d为阻尼系数，表示图中某一节点指向其他节点的概率； in(vi)表示指向节点vi的节点集合； out(vj)表示vj 指向的节点集合。 6.如权利要求1所述的方法，其特征在于，将所述关键词映射到知识图谱中的实体的映射关系为f：其中k为所述关键词， e为所述知识图谱中的某一实体。 7.如权利要求1所述的方法，其特征在于，所述基于文本相似度从所述候选实体集中选取一个与原文语义最相近的实体的方法为：遍历得到关键词所对应实体的描述文本集合，对所有的描述文本进行预处理，所述预权　利　要　求　书 1/2 页 2 CN 114491062 A 2处理包括分词和移除停用词；对原短文本的上下文信息设置一个滑动窗口，从所述原短文本的词集合中获取关键词前后的词，并作为所述关键词的上下文集合；使用word2vec将所述关键词的上下文集合中的词转换为词向量Vc；将所述描述文本集合中的每个预处理后的描述文本转换为词向量Vd；按照以下公式计算Vc和Vd的相似度： 8.如权利要求1所述的方法，其特征在于，所述主题模型采用LDA主题模型。 9.如权利要求1或8所述的方法，其特征在于，所述主题模型采用所述用Gibbs采样算法计算文本的主题概率分布和主题的词项概率分布，根据这两个分布得到每个文档的主题概率向量。 10.如权利要求1所述的方法，其特征在于，所述短文本分类模型采用SVM模型。权　利　要　求　书 2/2 页 3 CN 114491062 A 3

专利 一种融合知识图谱和主题模型的短文本分类方法

专利一种融合知识图谱和主题模型的短文本分类方法