专利 文本向量生成模型训练方法、文本分类方法及相关装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210965210.9 (22)申请日 2022.08.12 (65)同一申请的已公布的文献号申请公布号 CN 115033701 A (43)申请公布日 2022.09.09 (73)专利权人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人吴高升　田鑫　程军　陈泽裕　 (74)专利代理机构北京英赛嘉华知识产权代理有限责任公司 1 1204 专利代理师王达佐　马晓亚 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/166(2020.01)G06F 40/247(2020.01) G06F 40/30(2020.01) G06N 20/00(2019.01) 审查员亢飞 (54)发明名称文本向量生成模型训练方法、文本分类方法及相关装置 (57)摘要本公开提供了一种文本向量生成模型训练方法、文本分类方法及相关装置，涉及文本处理、自然语言处理、深度学习等人工智能技术领域。该方法包括：获取样本文本；替换该样本文本中的至少一个分词，生成该样本文本的同义文本，并生成由该样本文本和该同义文本组成的样本文本组；将该样本文本组作为输入、将与该样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出，对初始文本向量生成模型进行训练，得到目标文本向量生成模型。应用该方法提供的目标文本向量生成模型，可准确的将语义相同的语句归为同一或相似度满足要求的文本向量。权利要求书3页说明书14页附图8页 CN 115033701 B 2022.10.28 CN 115033701 B 1.一种文本分类方法，包括：获取待分类文本；调用目标文本向量生成模型处理所述待分类文本，生成所述待分类文本的第一文本向量；其中，所述目标文本向量生成模型基于以下方式训练得到：获取样本文本，替换所述样本文本中的至少一个分词为所述分词的同义词，生成所述样本文本的同义文本，并生成由所述样本文本和所述同义文本组成的样本文本组，将所述样本文本组作为输入、将与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出，对初始文本向量生成模型进行训练，得到所述目标文本向量生成模型；从预先配置的向量检索库中召回预设数量的与所述第一文本向量相似度超过第二相似度阈值的第二文本向量；其中，所述向量检索库中配置有多个带有分类标签的第二文本向量；分别基于所述第一文本向量与所述第二文本向量的相似度生成各所述第二文本向量的相似度评分；根据属于相同所述分类标签的第二文本向量的相似度评分，确定与各所述分类标签对应的相似度评分和，并将所述相似度评分和超过分数阈值的分类标签确定为所述待分类文本的文本类别。 2.根据权利要求1所述的方法，还包括：响应于接收到针对所述向量检索库的向量更新请求，获取所述向量更新请求中所包括的第三文本向量；从所述向量检索库提取与所述第三文本向量相似度超过第三相似度阈值的参照第二文本向量；基于所述参照第二文本向量的分类标签的分布结果确定所述第三文本向量的参考文本类别，并呈现所述参考文本类别；响应于接收到针对所述参考文本类别的确认信息，基于所述参考文本类别生成所述第三文本向量的分类标签，并将带有所述分类标签的第三文本向量存入所述向量检索库。 3.根据权利要求2所述的方法，还包括：响应于接收到针对所述参考文本类别的更新信息，基于所述更新信息中标记的更新文本类别生成所述第三文本向量的分类标签，并将带有所述分类标签的第三文本向量存入所述向量检索库。 4.根据权利要求1所述的方法，其中，所述从预先配置的向量检索库中召回预设数量与所述第一文本向量相似度超过第二相似度阈值的第二文本向量，包括：获取预先配置的向量检索库中各所述第二文本向量与所述第一文本向量的相似度；将所述相似度超过第二相似度阈值的第二文本向量确定为目标第二文本向量；基于各所述目标第二文本向量与所述第一文本向量的相似度数值进行降序排序，并从排序结果中召回前预设数量的目标第二文本向量。 5.根据权利要求1所述的方法，还包括：构建通用同义词表单和/或领域同义词表单；以及所述替换所述样本文本中的至少一个分词为所述分词的同义词，生成所述样本文本的同义文本，并生成由所述样本文本和所述同义文本组成的样本文本组，包括：权　利　要　求　书 1/3 页 2 CN 115033701 B 2获取所述样本文本中的至少一个分词，分别获取所述分词在所述通用同义词表单中的通用同义词和/或在所述领域同义词表单中的领域同义词；利用所述通用同义词替换所述分词得到通用同义文本和/或利用所述领域同义词替换所述分词得到领域同义文本；生成由所述样本文本和所述通用同义文本和/或所述领域同义文本组成的样本文本组。 6.根据权利要求1所述的方法，还包括：响应于所述样本文本的长度未超过长度阈值，基于所述样本文本的前文语句和/或后文语句将所述样本文本的长度增至所述长度阈值对应的长度。 7.根据权利要求5 ‑6中任一项所述的方法，其中，所述将所述样本文本组作为输入、将与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出，对初始文本向量生成模型进行训练，得到目标文本向量生成模型，包括：将所述样本文本组作为输入、将与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出，使用批次内负采样的方式对对偶式检索模型进行训练，得到所述目标文本向量生成模型。 8.一种文本分类装置，包括：待分类文本获取单元，被配置成获取待分类文本；文本向量生成单元，被配置成调用目标文本向量生成模型处理所述待分类文本，生成所述待分类文本的第一文本向量；其中，所述目标文本向量生成模型基于以下单元训练得到：样本文本获取单元，被配置成获取样本文本，样本文本组生成单元，被配置成替换所述样本文本中的至少一个分词为所述分词的同义词，生成所述样本文本的同义文本，并生成由所述样本文本和所述同义文本组成的样本文本组，文本向量生成模型训练单元，被配置成将所述样本文本组作为输入、将与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出，对初始文本向量生成模型进行训练，得到所述目标文本向量生成模型；第二文本向量召回单元，被配置成从预先配置的向量检索库中召回预设数量的与所述第一文本向量相似度超过第二相似度阈值的第二文本向量，其中，所述向量检索库中配置有多个带有分类标签的第二文本向量；文本分类单元，被配置成分别基于所述第一文本向量与所述第二文本向量的相似度生成各所述第二文本向量的相似度评分，根据属于相同所述分类标签的第二文本向量的相似度评分，确定与各所述分类标签对应的相似度评分和，并将所述相似度评分和超过分数阈值的分类标签确定为所述待分类文本的文本类别。 9.根据权利要求8所述的装置，还包括：第三文本向量获取单元，被配置成响应于接收到针对所述向量检索库的向量更新请求，获取所述向量更新请求中所包括的第三文本向量；参照第二文本向量提取单元，被配置成从所述向量检索库提取与所述第三文本向量相似度超过第三相似度阈值的参照第二文本向量；参考文本类别呈现单元，被配置成基于所述参照第二文本向量的分类标签的分布结果确定所述第三文本向量的参考文本类别，并呈现所述参考文本类别；权　利　要　求　书 2/3 页 3 CN 115033701 B 3

专利 文本向量生成模型训练方法、文本分类方法及相关装置

专利文本向量生成模型训练方法、文本分类方法及相关装置