安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111652611.0 (22)申请日 2021.12.3 0 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新 开发区望 江西路666号 (72)发明人 房翔 李亚 刘权 (74)专利代理 机构 北京维澳专利代理有限公司 11252 代理人 陈变花 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/194(2020.01) G06K 9/62(2022.01) (54)发明名称 一种基于句子的语义相似度获得方法、 装置 以及设备 (57)摘要 本发明公开了一种基于句子的语义相似度 获得方法、 装置以及设备, 语义相似度获得方法 包括: 利用第一编码器获得第一句子的第一语义 表征; 利用所述第一编码器或第二编码器获得第 二句子的第二语义表征; 计算所述第一语义表征 与所述第二语义表征之间的相似度, 作为两个句 子之间的语义相似度; 其中, 所述第一编码器包 括第一编码层, 所述第二编码器包括第二编码层 和交互层, 其中, 所述第一编码层的模型参数与 所述第二编码层的模型参数完全相同, 所述第二 编码层的输出数据作为所述交互层的输入数据, 所述交互层的输出数据作为所述第二语义表征。 本申请在将句子转化成语义表征时考虑句子之 间的交互, 有助于 语义相似度的精确计算。 权利要求书2页 说明书11页 附图6页 CN 114330367 A 2022.04.12 CN 114330367 A 1.一种基于句子的语义相似度获得 方法, 其特 征在于, 包括: 利用第一编码器获得第一句子的第一语义表征; 利用所述第一编码器或第二编码器获得第二句子的第二语义表征; 计算所述第 一语义表征与 所述第二语义表征之间的相似度, 作为两个句子之间的语义 相似度; 其中, 所述第 一编码器包括第 一编码层, 所述第 二编码器包括第二编码层和交互层, 其 中, 所述第一编码层的模型参数与所述第二编码层的模型参数完全相同, 所述第二编码层 的输出数据作为所述交 互层的输入数据, 所述交 互层的输出 数据作为所述第二语义表征。 2.根据权利要求1所述的基于句子的语义相似度获得方法, 其特征在于, 所述第 一编码 器还包括平均池化层, 所述第一编码层的输出数据为所述平均池化层的输入数据, 所述平 均池化层的输出 数据为所述第一语义表征。 3.根据权利要求1所述的基于句子的语义相似度获得方法, 其特征在于, 所述交互层包 括第一子交 互层和第二子交 互层; 所述第一子交互层利用多个初始化向量对所述第二编码层的输出数据进行第一交互 操作, 获得第一交 互结果; 所述第二子交互层利用所述第 一交互结果对所述第 一语义表征进行第 二交互操作, 获 得第二交 互结果, 作为所述第二语义表征。 4.根据权利要求1所述的基于句子的语义相似度获得方法, 其特征在于, 在训练阶段, 所述第一编 码器和所述第二编 码器组成双塔训练模型, 并利用所述第二编 码器的交互层输 出数据与所述第一编码器的输出数据之间的对比损失函数值对所述双塔训练模型进行优 化。 5.根据权利要求4所述的基于句子的语义相似度获得方法, 其特征在于, 对所述双塔训 练模型进行训练包括: 对所述双塔训练模型进行 预训练; 利用目标应用场景的种子数据生成增量训练数据集; 利用所述增量训练数据集对所述双塔训练模型进行增量训练。 6.根据权利要求5所述的基于句子的语义相似度获得方法, 其特征在于, 利用目标应用 场景的种子数据生成增量训练数据集, 具体包括: 通过回译模型对所述种子数据进行处理, 生成第一句子对, 作为所述增量训练数据集 的一部分。 7.根据权利要求6所述的基于句子的语义相似度获得方法, 其特征在于, 利用目标应用 场景的种子数据生成增量训练数据集, 还 包括: 通过句法分析调序方法获得第二句子对, 作为所述增量训练数据集的一部分。 8.根据权利要求5所述的基于句子的语义相似度获得方法, 其特征在于, 对所述双塔训 练模型进行训练还 包括: 在所述增量训练后, 利用目标应用场景所属的领域内的小样本标注句子对地模型进行 微调。 9.根据权利要求7所述的基于句子的语义相似度获得方法, 其特征在于, 所述增量训练 的输入数据中, 所述第二句子对的比例在第一预设范围内。权 利 要 求 书 1/2 页 2 CN 114330367 A 210.根据权利要求5或9所述的基于句子的语义相似度获得方法, 其特征在于, 所述增量 训练的输入数据包括第三句子对, 所述第三句子对中两个句子 完全相同。 11.根据权利要求10所述的基于句子的语义相似度获得方法, 其特征在于, 所述增量训 练的输入数据中, 所述第三句子对的比例在第二预设范围内。 12.根据权利要求5所述的基于句子的语义相似度获得方法, 其特征在于, 预训练数据 集包括多个第四句子对, 所述第四句子对中两个句子的关联度小于阈值。 13.一种基于句子的语义相似度获得装置, 其特征在于, 包括第一语义表征模块、 第二 语义表征模块以及相似度计算模块; 所述第一语义表征模块用于利用第一编码器获得第一句子的第一语义表征; 所述第二语义表征模块用于利用所述第一编码器或第二编码器获得第二句子的第二 语义表征; 所述相似度计算模块用于计算所述第 一语义表征与所述第 二语义表征之间的相似度, 作为两个句子之间的语义相似度; 其中, 所述第 一编码器包括第 一编码层, 所述第 二编码器包括第二编码层和交互层, 其 中, 所述第一编码层的模型参数与所述第二编码层的模型参数完全相同, 所述第二编码层 的输出数据作为所述交 互层的输入数据, 所述交 互层的输出 数据作为所述第二语义表征。 14.根据权利要求13所述的基于句子的语义相似度获得装置, 其特征在于, 在训练阶 段, 所述第一编码器和所述第二编码器组成双塔训练模型; 所述相似度获得装置还包括模型训练模块, 所述模型训练模块包括预训练模块、 增量 训练数据集获得模块以及增量训练模块; 所述预训练模块用于对所述双塔训练模型进行 预训练; 所述增量训练数据集获得模块用于利用目标应用场景的种子数据生成增量训练数据 集; 所述增量训练模块用于利用所述增量训练数据集对所述双塔训练模型进行增量训练。 15.根据权利要求14所述的基于句子的语义相似度获得装置, 其特征在于, 所述增量训 练数据集 获得模块包括第一句子对获得模块, 所述第一句子对获得模块用于通过回译模型 对所述种子数据进行处 理, 生成第一句子对, 作为所述增量训练数据集的一部分。 16.根据权利要求15所述的基于句子的语义相似度获得装置, 其特征在于, 所述增量训 练数据集 获得模块还包括第二句子对获得模块, 所述第二句子对获得模块用于通过句法分 析调序方法获得第二句子对, 作为所述增量训练数据集的一部分。 17.一种基于句子的语义相似度获得设备, 其特 征在于, 包括: 一个或多个处理器、 存储器以及一个或多个计算机程序, 其中所述一个或多个计算机 程序被存储在所述存储器中, 所述一个或多个计算机程序包括指令, 当所述指令被所述基 于句子的语义相似度获得设备执行时, 使得所述基于句子的语义相似度获得设备执行如权 利要求1~12任一项所述的基于句子的语义相似度获得 方法。 18.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中存储有计算机 程序, 当其在计算机上运行时, 使得计算机执行如权利要求 1~12任一项 所述的基于句子的 语义相似度获得 方法。权 利 要 求 书 2/2 页 3 CN 114330367 A 3
专利 一种基于句子的语义相似度获得方法、装置以及设备
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 04:42:12
上传分享
举报
下载
原文档
(794.6 KB)
分享
友情链接
ISO SAE 21434 Road vehicles— Cybersecurity engineering.pdf
中华人民共和国电子签名法 2019.pdf
GB 18040-2019 民用运输机场应急救护设施设备配备.pdf
等保三级-安全技术-应用系统.doc
T-SPSTS 019—2021 固态锂电池用固态电解质性能要求及测试方法 无机氧化物固态电解质.pdf
GB-T 43807-2024 版权资产管理体系 要求.pdf
GB-T 31960.7-2015 电力能效监测系统技术规范 第7部分:电力能效监测终端技术条件.pdf
GB-T 30297-2013 氯碱工业用全氟离子交换膜 应用规范.pdf
GB-T 41560-2022 纺织品 遮热性能的测定.pdf
T-CNHAW 0011—2024 干眼诊疗中心分级建设要求.pdf
T-CERDS 4—2022 企业ESG报告编制指南.pdf
OWASP 面向CISO应用安全指南 英文版 2013年第一版.pdf
DB52-T 1636.2-2021 机关事务云 第2部分:公务用车监督管理数据 贵州省.pdf
YD-T 3763.3-2021 研发运营一体化(DevOps)能力成熟度模型 第3部分:持续交付.pdf
GB-T 8020-2015 汽油中铅含量的测定 原子吸收光谱法.pdf
20230129-中信建投-人工智能行业从CHAT_GPT到生成式AI(Generative AI):人工智能新范式,重新定义生产力.pdf
绿盟 2014工控系统的安全研究与实践报告.pdf
GB-T 39997-2021 加油站埋地用热塑性塑料复合管道系统.pdf
DB34-T 5037-2022 船闸工程施工安全检查标准 安徽省.pdf
GB-T 38626-2020 信息安全技术 智能联网设备口令保护指南.pdf
1
/
3
20
评价文档
赞助2元 点击下载(794.6 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。