安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111666661.4 (22)申请日 2021.12.3 0 (71)申请人 智慧芽信息科技 (苏州) 有限公司 地址 215000 江苏省苏州市苏州工业园区 金鸡湖大道88号人工智能产业园G3- 701、 G3-801、 G3-901、 G3-1001单元 (72)发明人 肖燕思 孙敏 任泽 陈林卿 陆剑平 王为磊 屠昶旸 张济徽 (74)专利代理 机构 北京布瑞知识产权代理有限 公司 11505 代理人 周达 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01) G06K 9/62(2022.01) (54)发明名称 文献资料文本分类方法、 分类模型构建方法 和分类装置 (57)摘要 本说明书实施方式提供了一种文献资料文 本分类方法、 分类模型构建方法和分类装置。 包 括: 基于类别标签树给文 献资料文本添加类别标 签, 所述类别标签树被划分为包括多个基础类别 标签的基础层级, 和从属于所述基础层级并包括 多个扩展类别标签的扩展层级; 所述方法包括: 确定文献资料文本在所述基础层级中对应的基 础类别标签, 所述基础类别标签作为目标基础类 别标签; 将所述文献资料文本与所述扩展层级中 的扩展类别标签执行相似度运算得到与所述文 献资料文本对应的目标扩展类别标签。 通过基于 类别标签树给文献资料文本添加具有层次关系 的类别标签, 以实现对文 献资料文本在不同研究 领域的分类、 统计和查询。 权利要求书4页 说明书12页 附图2页 CN 114254116 A 2022.03.29 CN 114254116 A 1.一种文献资料文本分类方法, 其特征在于, 基于类别标签树为文献资料文本添加类 别标签, 所述类别标签树被划分为包括多个基础类别标签的基础层级, 和从属于所述基础 层级并包括多个扩展类别标签的扩展层级; 其中, 所述基础层级至少包括基础根层级和基 础末端层级, 所述基础根层级包括所述类别标签树的根节点, 所述基础末端层级包括所述 基础层级中远离所述 根节点的基础类别标签; 所述方法包括: 确定文献资料文本在所述基础层级中对应的基础类别标签, 所述基础类别标签作为目 标基础类别标签; 其中, 处于所述根节点的基础类别标签至所述基础末端层级的目标基础 类别标签按照层级间从属关系形成第一基础标签路径; 将所述文献资料文本与所述扩展层级中的扩展类别标签执行相似度运算得到与所述 文献资料文本对应的目标扩展类别标签; 其中, 所述 目标基础类别标签和所述目标扩展类 别标签作为所述文献资料文本的类别标签。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 抽取所述文献资料文本的关键词, 所述关键词用于作为 新增的类别标签; 确定所述关键词处于所述类别标签树的父节点; 将所述关键词添加至所述类别标签树, 并作为所述父节点的子节点。 3.根据权利要求1所述的方法, 其特征在于, 确定文献资料文本在所述基础层级中对应 的目标基础类别标签的步骤, 包括: 生成文献资料文本的第一多维特征向量; 其中, 所述第一多维特征向量用于表征对应 的文献资料文本; 基于所述文献资料文本的第一多维特征向量与处于所述基础层级的类别标签构成的 向量进行匹配运 算, 得到所述文献资料文本处于所述基础 层级的目标基础类别标签。 4.根据权利要求3所述的方法, 所述文献资料文本包括专利文本, 其特征在于, 生成文 献资料文本的第一多维特 征向量的步骤, 包括: 使用所述文献资料文本的至少第一部分文本数据构建第一词向量; 其中, 所述第一部 分文本数据至少包括以下之一: 所述专利文本中的实施方式、 所述专利文本中的发 明内容、 所述专利文本中的权利要求书; 使用所述第一词向量和所述文献资料文本的第二部分文本数据生成所述第一多维特 征向量; 其中, 所述第二部 分文本数据至少包括以下之一: 所述专利文本中的分类号、 标题、 摘要、 独立权利要求。 5.根据权利要求3所述的方法, 其特征在于, 基于所述文献资料文本的第 一多维特征向 量与处于所述基础层级的类别标签构成的向量进 行匹配运算, 得到所述文献资料文本处于 所述基础 层级的目标基础类别标签的步骤, 包括: 计算所述基础末端层级包括的基础类别标签构成的向量与所述第一多维特征向量的 匹配度; 基于所述匹配度在基础类别标签中确定目标基础类别标签。 6.根据权利要求5所述的方法, 其特征在于, 所述类别标签树的数量为多棵; 基于所述 匹配度在所述基础类别标签中确定目标基础类别标签的步骤, 还 包括: 提取所述基础类别标签中, 所述匹配度大于预设阈值的基础类别标签作为初选基础类 别标签;权 利 要 求 书 1/4 页 2 CN 114254116 A 2分别求取所述初选基础类别标签从属于每棵类别标签树的规则融合权重; 其中, 所述 规则融合权 重表示所述初选基础类别标签属于类别标签树的子节点的概 率; 根据所述匹配度和所述规则融合权重, 选定所述初选基础类别标签中的目标基础类别 标签, 以及所述目标基础类别标签处于所述类别标签树的基础标签路径。 7.根据权利要求1所述的方法, 所述文献资料文本包括专利文本, 其特征在于, 将所述 文献资料文本与所述扩展层级中的扩展类别标签执行相似度运算得到与所述文献资料文 本对应的目标扩展类别标签的步骤, 包括: 至少使用所述文献资料文本的第三部分文本数据在所述扩展层级包括的扩展类别标 签中进行文本匹配得到候选扩展类别标签; 其中, 所述第三部分文本数据至少包括以下之 一: 所述文献资料文本的摘要、 标题、 技 术领域、 背景技 术、 发明内容、 实施方式、 权利要求; 生成表征 所述文献资料文本和所述 候选扩展类别标签的第二多维特 征向量; 计算所述 候选扩展类别标签与所述第二多维特 征向量的相似度; 基于所述相似度和从属于所述标签树根节点的规则权重在所述候选扩展类别标签中 确定目标扩展类别标签。 8.根据权利要求7所述的方法, 其特征在于, 至少使用所述文献资料文本的第 三部分文 本数据在所述扩展层级包括的扩展类别标签中进行文本匹配得到候选扩展类别标签, 包 括: 至少使用所述文献资料文本的第三部分文本数据在从属于所述目标基础类别标签的 扩展类别标签中进行文本匹配得到候选扩展类别标签; 相应的, 基于所述相似度在所述 候选扩展类别标签中确定目标扩展类别标签。 9.根据权利要求7所述的方法, 所述文献资料文本包括专利文本, 其特征在于, 生成表 征所述文献资料文本和所述 候选扩展类别标签的第二多维特 征向量的步骤, 包括: 使用所述文献资料文本的至少第 四部分文本数据构建第二词向量; 其中, 所述第 四部 分文本数据至少包括以下之一: 所述文献资料文本中的实施方式、 所述文献资料文本中的 发明内容、 所述文献资料文本中的权利要求书; 利用所述文献资料文本的第五部分文本数据和候选扩展类别标签的标签信息中至少 一个, 与所述第二词向量生 成所述第二多维特征向量; 其中, 所述第五部 分文本数据包括以 下至少之一: 分类号、 标题、 摘要或独立权利要求; 所述候选扩展类别标签的标签信息包括 以下至少之一: 候选扩展类别标签、 候选扩展类别标签的描述信息、 候选扩展类别标签处于 类别标签树中的父节点、 候选扩展类别标签处于类别标签树中的子节点、 候选扩展类别标 签处于类别标签树中对应的基础 层级的第二基础标签路径。 10.根据权利要求7所述的方法, 其特征在于, 计算所述候选扩展类别标签与所述第二 多维特征向量的相似度的步骤, 包括: 将所述候选扩展类别标签的产生方式和/或标签长度加入所述第 二多维特征向量得到 目标多维特 征向量; 计算所述候选扩展类别标签构成的向量与所述目标多维特征向量的相似度和所述候 选扩展类别标签属于所述类别标签树指定根节点的规则权重大于所设阈值的所述候选扩 展类别标签作为目标扩展类别标签。 11.一种文献资料文本分类模型构建方法, 其特征在于, 文献资料文本分类模型用于基权 利 要 求 书 2/4 页 3 CN 114254116 A 3
专利 文献资料文本分类方法、分类模型构建方法和分类装置
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 04:43:51
上传分享
举报
下载
原文档
(704.7 KB)
分享
友情链接
GB-T 42044-2022 空间站应用有效载荷通用设计要求.pdf
SN-T 5405.1-2021 互联网环境下的认证技术指南 第1部分:总则.pdf
GB-T 33172-2016 资产管理 综述、原则和术语.pdf
GB-T 31497-2024 信息技术 安全技术 信息安全管理 监视、测量、分析和评价.pdf
方正证券 安全服务 网络安全行业的制高点.pdf
GB-T 35410-2017 液相色谱-串联四极质谱仪性能的测定方法.pdf
DB11-T 1231-2015 燃气工业锅炉节能监测 北京市.pdf
XF 654-2006 人员密集场所消防安全管理.pdf
GB-T 5751-2009 中国煤炭分类.pdf
GB-T 17798-2007 地理空间数据交换格式.pdf
GB-T 13813-2023 煤矿用金属材料摩擦火花安全性试验方法和判定规则.pdf
GB-T 29156-2012 金属复合装饰板材生产生命周期评价技术规范 产品种类规则.pdf
GB-T 41986-2022 全钒液流电池 设计导则.pdf
GB 22021-2008 国家大地测量基本技术规定.pdf
GB-T 20204-2006 水利水文自动化系统设备检验测试通用技术规范.pdf
GB-T 26071-2018 太阳能电池用硅单晶片.pdf
GB-T 41996-2022 开关设备数字化车间运行管理模型指南.pdf
T-SDBQ 02—2023 版权资产管理师职业标准.pdf
GB-T 31503-2015 信息安全技术 电子文档加密与签名消息语法.pdf
GB-T 29529-2013 泵的噪声测量与评价方法.pdf
1
/
3
19
评价文档
赞助2元 点击下载(704.7 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。