专利 一种基于句子的语义相似度获得方法、装置以及设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111652611.0 (22)申请日 2021.12.3 0 (71)申请人科大讯飞股份有限公司地址 230088 安徽省合肥市高新开发区望江西路666号 (72)发明人房翔　李亚　刘权　 (74)专利代理机构北京维澳专利代理有限公司 11252 代理人陈变花 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/194(2020.01) G06K 9/62(2022.01) (54)发明名称一种基于句子的语义相似度获得方法、装置以及设备 (57)摘要本发明公开了一种基于句子的语义相似度获得方法、装置以及设备，语义相似度获得方法包括：利用第一编码器获得第一句子的第一语义表征；利用所述第一编码器或第二编码器获得第二句子的第二语义表征；计算所述第一语义表征与所述第二语义表征之间的相似度，作为两个句子之间的语义相似度；其中，所述第一编码器包括第一编码层，所述第二编码器包括第二编码层和交互层，其中，所述第一编码层的模型参数与所述第二编码层的模型参数完全相同，所述第二编码层的输出数据作为所述交互层的输入数据，所述交互层的输出数据作为所述第二语义表征。本申请在将句子转化成语义表征时考虑句子之间的交互，有助于语义相似度的精确计算。权利要求书2页说明书11页附图6页 CN 114330367 A 2022.04.12 CN 114330367 A 1.一种基于句子的语义相似度获得方法，其特征在于，包括：利用第一编码器获得第一句子的第一语义表征；利用所述第一编码器或第二编码器获得第二句子的第二语义表征；计算所述第一语义表征与所述第二语义表征之间的相似度，作为两个句子之间的语义相似度；其中，所述第一编码器包括第一编码层，所述第二编码器包括第二编码层和交互层，其中，所述第一编码层的模型参数与所述第二编码层的模型参数完全相同，所述第二编码层的输出数据作为所述交互层的输入数据，所述交互层的输出数据作为所述第二语义表征。 2.根据权利要求1所述的基于句子的语义相似度获得方法，其特征在于，所述第一编码器还包括平均池化层，所述第一编码层的输出数据为所述平均池化层的输入数据，所述平均池化层的输出数据为所述第一语义表征。 3.根据权利要求1所述的基于句子的语义相似度获得方法，其特征在于，所述交互层包括第一子交互层和第二子交互层；所述第一子交互层利用多个初始化向量对所述第二编码层的输出数据进行第一交互操作，获得第一交互结果；所述第二子交互层利用所述第一交互结果对所述第一语义表征进行第二交互操作，获得第二交互结果，作为所述第二语义表征。 4.根据权利要求1所述的基于句子的语义相似度获得方法，其特征在于，在训练阶段，所述第一编码器和所述第二编码器组成双塔训练模型，并利用所述第二编码器的交互层输出数据与所述第一编码器的输出数据之间的对比损失函数值对所述双塔训练模型进行优化。 5.根据权利要求4所述的基于句子的语义相似度获得方法，其特征在于，对所述双塔训练模型进行训练包括：对所述双塔训练模型进行预训练；利用目标应用场景的种子数据生成增量训练数据集；利用所述增量训练数据集对所述双塔训练模型进行增量训练。 6.根据权利要求5所述的基于句子的语义相似度获得方法，其特征在于，利用目标应用场景的种子数据生成增量训练数据集，具体包括：通过回译模型对所述种子数据进行处理，生成第一句子对，作为所述增量训练数据集的一部分。 7.根据权利要求6所述的基于句子的语义相似度获得方法，其特征在于，利用目标应用场景的种子数据生成增量训练数据集，还包括：通过句法分析调序方法获得第二句子对，作为所述增量训练数据集的一部分。 8.根据权利要求5所述的基于句子的语义相似度获得方法，其特征在于，对所述双塔训练模型进行训练还包括：在所述增量训练后，利用目标应用场景所属的领域内的小样本标注句子对地模型进行微调。 9.根据权利要求7所述的基于句子的语义相似度获得方法，其特征在于，所述增量训练的输入数据中，所述第二句子对的比例在第一预设范围内。权　利　要　求　书 1/2 页 2 CN 114330367 A 210.根据权利要求5或9所述的基于句子的语义相似度获得方法，其特征在于，所述增量训练的输入数据包括第三句子对，所述第三句子对中两个句子完全相同。 11.根据权利要求10所述的基于句子的语义相似度获得方法，其特征在于，所述增量训练的输入数据中，所述第三句子对的比例在第二预设范围内。 12.根据权利要求5所述的基于句子的语义相似度获得方法，其特征在于，预训练数据集包括多个第四句子对，所述第四句子对中两个句子的关联度小于阈值。 13.一种基于句子的语义相似度获得装置，其特征在于，包括第一语义表征模块、第二语义表征模块以及相似度计算模块；所述第一语义表征模块用于利用第一编码器获得第一句子的第一语义表征；所述第二语义表征模块用于利用所述第一编码器或第二编码器获得第二句子的第二语义表征；所述相似度计算模块用于计算所述第一语义表征与所述第二语义表征之间的相似度，作为两个句子之间的语义相似度；其中，所述第一编码器包括第一编码层，所述第二编码器包括第二编码层和交互层，其中，所述第一编码层的模型参数与所述第二编码层的模型参数完全相同，所述第二编码层的输出数据作为所述交互层的输入数据，所述交互层的输出数据作为所述第二语义表征。 14.根据权利要求13所述的基于句子的语义相似度获得装置，其特征在于，在训练阶段，所述第一编码器和所述第二编码器组成双塔训练模型；所述相似度获得装置还包括模型训练模块，所述模型训练模块包括预训练模块、增量训练数据集获得模块以及增量训练模块；所述预训练模块用于对所述双塔训练模型进行预训练；所述增量训练数据集获得模块用于利用目标应用场景的种子数据生成增量训练数据集；所述增量训练模块用于利用所述增量训练数据集对所述双塔训练模型进行增量训练。 15.根据权利要求14所述的基于句子的语义相似度获得装置，其特征在于，所述增量训练数据集获得模块包括第一句子对获得模块，所述第一句子对获得模块用于通过回译模型对所述种子数据进行处理，生成第一句子对，作为所述增量训练数据集的一部分。 16.根据权利要求15所述的基于句子的语义相似度获得装置，其特征在于，所述增量训练数据集获得模块还包括第二句子对获得模块，所述第二句子对获得模块用于通过句法分析调序方法获得第二句子对，作为所述增量训练数据集的一部分。 17.一种基于句子的语义相似度获得设备，其特征在于，包括：一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述基于句子的语义相似度获得设备执行时，使得所述基于句子的语义相似度获得设备执行如权利要求1～12任一项所述的基于句子的语义相似度获得方法。 18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求 1～12任一项所述的基于句子的语义相似度获得方法。权　利　要　求　书 2/2 页 3 CN 114330367 A 3

专利 一种基于句子的语义相似度获得方法、装置以及设备

专利一种基于句子的语义相似度获得方法、装置以及设备