(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210965210.9
(22)申请日 2022.08.12
(65)同一申请的已公布的文献号
申请公布号 CN 115033701 A
(43)申请公布日 2022.09.09
(73)专利权人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 吴高升 田鑫 程军 陈泽裕
(74)专利代理 机构 北京英赛 嘉华知识产权代理
有限责任公司 1 1204
专利代理师 王达佐 马晓亚
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/166(2020.01)G06F 40/247(2020.01)
G06F 40/30(2020.01)
G06N 20/00(2019.01)
审查员 亢飞
(54)发明名称
文本向量生 成模型训练方法、 文本分类方法
及相关装置
(57)摘要
本公开提供了一种文本向量生成模型训练
方法、 文本分类方法及相关装置, 涉及文本处理、
自然语言处理、 深度学习等人工智能技术领域。
该方法包括: 获取样本文本; 替换该样本文本中
的至少一个分词, 生成该样本文本的同义文本,
并生成由该样本文本和该同义文本组成的样本
文本组; 将该样本文本组作为输入、 将与该样本
文本的语义向量相似度超过第一相似度阈值的
目标语义向量作为输出, 对初始文本向量生成模
型进行训练, 得到目标文本向量生成模型。 应用
该方法提供的目标文本向量生 成模型, 可准确的
将语义相同的语句归为同一或相似度满足要求
的文本向量。
权利要求书3页 说明书14页 附图8页
CN 115033701 B
2022.10.28
CN 115033701 B
1.一种文本分类方法, 包括:
获取待分类文本;
调用目标文本向量生成模型处理所述待分类文本, 生成所述待分类文本的第 一文本向
量; 其中, 所述目标文本 向量生成模型基于以下方式训练得到: 获取样本文本, 替换所述样
本文本中的至少一个分词为所述分词的同义词, 生成所述样本文本的同义文本, 并生成由
所述样本文本和所述同义文本组成的样本文本组, 将所述样本文本组作为输入、 将与所述
样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出, 对初始文本向
量生成模型进行训练, 得到所述目标文本向量 生成模型;
从预先配置的向量检索库中召回预设数量的与所述第一文本向量相似度超过第二相
似度阈值的第二文本 向量; 其中, 所述向量检索库中配置有多个带有分类标签的第二文本
向量;
分别基于所述第一文本向量与所述第二文本向量的相似度生成各所述第二文本向量
的相似度评分;
根据属于相同所述分类标签的第 二文本向量的相似度评分, 确定与 各所述分类标签对
应的相似度评 分和, 并将所述相似度评 分和超过分数阈值的分类标签确定为所述待分类文
本的文本类别。
2.根据权利要求1所述的方法, 还 包括:
响应于接收到针对所述向量检索库的向量更新请求, 获取所述向量更新请求中所包括
的第三文本向量;
从所述向量检索库提取与所述第三文本向量相似度超过第三相似度阈值的参照第二
文本向量;
基于所述参照第二文本向量的分类标签的分布结果确定所述第三文本向量的参考文
本类别, 并呈现所述 参考文本类别;
响应于接收到针对所述参考文本类别的确 认信息, 基于所述参考文本类别生成所述第
三文本向量的分类标签, 并将带有所述分类标签的第三文本向量存 入所述向量检索库。
3.根据权利要求2所述的方法, 还 包括:
响应于接收到针对所述参考文本类别的更新信 息, 基于所述更新信 息中标记的更新文
本类别生成所述第三文本向量的分类标签, 并将带有 所述分类标签的第三文本向量存入所
述向量检索库。
4.根据权利要求1所述的方法, 其中, 所述从预先配置的向量检索库中召回预设数量与
所述第一文本向量相似度超过第二相似度阈值的第二文本向量, 包括:
获取预先配置的向量检索库中各 所述第二文本向量与所述第一文本向量的相似度;
将所述相似度超过第二相似度阈值的第二文本向量确定为目标第二文本向量;
基于各所述目标第 二文本向量与 所述第一文本向量的相似度数值进行降序排序, 并从
排序结果中召回前 预设数量的目标第二文本向量。
5.根据权利要求1所述的方法, 还 包括:
构建通用同义词表单和/或领域同义词表单; 以及
所述替换所述样本文本 中的至少一个分词为所述分词的同义词, 生成所述样本文本的
同义文本, 并生成由所述样本文本和所述同义文本组成的样本文本组, 包括:权 利 要 求 书 1/3 页
2
CN 115033701 B
2获取所述样本文本 中的至少一个分词, 分别获取所述分词在所述通用同义词表单中的
通用同义词和/或在所述领域同义词表单中的领域同义词;
利用所述通用同义词替换所述分词得到通用同义文本和/或利用所述领域同义词替换
所述分词得到领域同义文本;
生成由所述样本文本和所述通用同义文本和/或所述领域同义文本组成的样本文本
组。
6.根据权利要求1所述的方法, 还 包括:
响应于所述样本文本的长度未超过长度阈值, 基于所述样本文本的前文语句和/或后
文语句将所述样本文本的长度增至所述长度阈值对应的长度。
7.根据权利要求5 ‑6中任一项所述的方法, 其中, 所述将所述样本文本组作为输入、 将
与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出, 对初始
文本向量 生成模型进行训练, 得到目标文本向量 生成模型, 包括:
将所述样本文本组作为输入、 将与 所述样本文本的语义向量相似度超过第 一相似度阈
值的目标语义向量作为输出, 使用批次内负采样的方式对对偶式检索模型进行训练, 得到
所述目标文本向量 生成模型。
8.一种文本分类装置, 包括:
待分类文本获取 单元, 被配置成获取待分类文本;
文本向量生成单元, 被配置成调用目标文本向量生成模型处理所述待分类文本, 生成
所述待分类文本的第一文本 向量; 其中, 所述 目标文本 向量生成模型基于以下单元训练得
到: 样本文本获取单元, 被配置成获取样本文本, 样本文本组生成单元, 被配置成替换所述
样本文本中的至少一个分词为所述分词的同义词, 生成所述样本文本的同义文本, 并生成
由所述样本文本和所述同义文本组成的样本文本组, 文本 向量生成模型训练单元, 被配置
成将所述样本文本组作为输入、 将与所述样本文本的语义向量相似度超过第一相似度阈值
的目标语义向量作为输出, 对初始文本 向量生成模型进行训练, 得到所述 目标文本 向量生
成模型;
第二文本向量召回单元, 被配置成从预先配置的向量检索库中召回预设数量的与 所述
第一文本 向量相似度超过第二相似度阈值的第二文本 向量, 其中, 所述向量检索库中配置
有多个带有分类标签的第二文本向量;
文本分类单元, 被配置成分别基于所述第 一文本向量与 所述第二文本向量的相似度生
成各所述第二文本向量的相似度评 分, 根据属于相同所述分类标签的第二文本向量的相似
度评分, 确定与各所述分类标签对应的相似度评分和, 并将所述相似度评分和超过分数阈
值的分类标签确定为所述待分类文本的文本类别。
9.根据权利要求8所述的装置, 还 包括:
第三文本向量获取单元, 被配置成响应于接收到针对所述向量检索库的向量更新请
求, 获取所述向量更新请求中所包括的第三文本向量;
参照第二文本向量提取单元, 被配置成从所述向量检索库提取与所述第 三文本向量相
似度超过第三相似度阈值的参照第二文本向量;
参考文本类别呈现单元, 被配置成基于所述参照第 二文本向量的分类标签的分布结果
确定所述第三文本向量的参 考文本类别, 并呈现所述 参考文本类别;权 利 要 求 书 2/3 页
3
CN 115033701 B
3
专利 文本向量生成模型训练方法、文本分类方法及相关装置
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:07:08上传分享