安全公司报告
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211388530.9 (22)申请日 2022.11.08 (71)申请人 深圳擎盾信息科技有限公司 地址 518000 广东省深圳市粤海街道麻岭 社区科研路9号比克 科技大厦1201B (72)发明人 王加伟 杜向阳 (74)专利代理 机构 深圳众鼎汇成知识产权代理 有限公司 4 4566 专利代理师 朱业刚 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/268(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称 融合多源特征的合同文本纠错方法、 系统、 设备及介质 (57)摘要 本发明涉及人工智能技术领域, 尤其涉及一 种融合多源特征的合同文本纠错方法、 系统、 设 备及介质。 该方法将待识别文本的字向量、 位置 向量、 拼音向量和字形向量相加后, 输入编码模 型中得到融合特征, 将融合特征输入字预测模型 中, 得到每个字所在位置对应的概率序列, 针对 任一字, 从概率序列中筛选出概率值最大的前K 个预设字, 在该字与前K个预设字均不相同时, 确 定该字所在位置为纠错位置, 采用概率序列中概 率值最大的预设字替换该字, 得到纠错文本, 以 拼音向量和字形向量作为额外信息参与特征融 合, 提高了融合特征的表征能力, 采用预设字与 当前字比对的方式确定纠错位置, 避免非错误字 被误识别, 导致过度纠正, 进而提高了合同文本 识别的准确率。 权利要求书3页 说明书12页 附图4页 CN 115438650 A 2022.12.06 CN 115438650 A 1.一种融合多源特 征的合同文本纠错方法, 其特 征在于, 所述 合同文本纠错方法包括: 提取待识别文本中每个字的字向量、 位置向量、 拼音向量和字形向量, 将所述字向量、 所述位置向量、 所述拼音向量和所述字形向量相加后输入训练好的编 码模型中进行特征提 取, 得到融合特 征; 将所述融合特征输入训练好的字预测模型中, 得到每个字所在位置对应的概率序列, 所述概率序列包括至少两个预设字及其对应的概 率值; 针对任一字, 从对应所述字所在位置的概率序列中筛选出概率值最大的前K个预设字, K为小于预设字的数量且大于零的整数; 在检测到所述字与所述前K个预设字均不相同时, 确定所述字所在位置为纠错位置, 采 用所述概率序列中概 率值最大的预设字替换 所述字, 得到纠错文本 。 2.根据权利要求1所述的合同文本纠错方法, 其特征在于, 所述提取待识别文本 中每个 字的拼音向量包括: 针对所述待识别文本中的任一字, 将对应所述字的拼音按照字母拆分, 得到至少一个 拼音字母; 将所述拼音字母输入训练好的字母向量嵌入 模型, 得到对应拼音字母的字母子向量; 在所述拼音拆分为一个拼音字母时, 确定所述拼音字母对应的字母子向量为对应所述 拼音的拼音子向量; 在所述拼音拆分为至少两个拼音字母时, 将每个拼音字母对应的字母子向量线性相 加, 确定相加结果 为对应所述 拼音的拼音子向量; 将所有字的拼音子向量按照文本顺序拼接, 确定拼接结果 为所述拼音向量。 3.根据权利要求1所述的合同文本纠 错方法, 其特征在于, 所述提取待识别文本中每 个字的字形向量包括: 针对所述待识别文本中的任一字, 将所述字按照笔画进行切分, 得到至少一个切分笔 画; 将所述切分笔画输入训练好的笔画向量嵌入模型, 得到对应所述切分笔画的笔画子向 量; 在所述字切分为一个切分笔画时, 确定所述切分笔画对应的笔画子向量为对应所述字 的字形子向量; 在所述字切分为至少两个切分笔画时, 将每个切分笔画对应的笔画子向量线性相加, 确定相加结果 为对应所述字的字形子向量; 将所有字的字形子向量按照文本顺序拼接, 确定拼接结果 为所述字形向量。 4.根据权利要求1所述的合同文本纠错方法, 其特征在于, 所述训练好的编码模型包括 训练好的注意力层和训练好的残差连接层; 所述将所述字向量、 所述位置向量、 所述拼音向量和所述字形向量相加后输入训练好 的编码模型中进行 特征提取, 得到融合特 征包括: 确定所述字向量、 所述位置向量、 所述拼音向量和所述字形向量的相加结果为输入向 量, 将所述输入向量输入所述训练好的注意力层, 得到查询向量、 键值向量和值向量; 将所述查询向量、 所述键值向量和所述值向量代入预设的自注意力函数计算, 确定计 算结果为加权向量;权 利 要 求 书 1/3 页 2 CN 115438650 A 2将所述输入向量和所述加权向量输入所述训练好的残差连接层, 得到所述融合特 征。 5.根据权利要求1至4任一项所述的合同文本纠 错方法, 其特征在于, 所述编码模型和 所述字预测模型的训练过程包括: 按照预设条件从获取的历史文本中选择待处理字, 对所述待处理字进行掩码处理, 得 到掩码字, 确定包含掩码字的历史文本为样本文本, 提取所述样本文本的样 本字向量、 样本 位置向量、 样本拼音向量和样本 字形向量; 将所述样本字向量、 所述样本位置向量、 所述样本拼音向量和所述样本字形向量相加 后输入所述编码模型, 得到样本融合特 征; 将所述样本 融合特征输入所述字预测模型中, 得到所述待处理字所在位置的样本概率 序列, 确定所述样本概率序列中最大概率值对应的预设字为预测字, 所述样本概率序列包 括至少两个预设字及其对应的概 率值; 根据所述预测字、 所述待处理字和预设损失函数, 计算字预测损失, 以所述字预测损失 为依据, 对所述编码模型和所述字预测模型进行训练, 得到所述训练好的编码模型和所述 训练好的字预测模型。 6.根据权利要求5所述的合同文本纠错方法, 其特征在于, 所述按照预设条件从获取的 历史文本中选择待处 理字, 对所述待处 理字进行掩码处 理, 得到掩码字包括: 将所述历史文本 中所有字与 预设字典比较, 筛选出至少两个属于非实体字类别的字作 为参考字, 所述预设字典包括实体字类别和所述非 实体字类别; 针对任一参考字, 按照预设的第一概率对是否进行掩码处理进行采样, 若采样结果为 进行掩码处 理, 确定所述 参考字为待处 理字; 针对任一待处理字, 采用预设的第二概率对预设的掩码类型进行采样, 根据采样结果 从所述预设字典中确定对应所述待处 理字的替换字; 采用所述 替换字替换 所述待处 理字, 得到所述掩码字 。 7.根据权利要求5所述的合同文本纠错方法, 其特 征在于, 所述编码模型和所述字预测模型的训练过程还 包括: 针对任一待处理字, 获取所述待处理字对应的真实拼音, 将所述样本融合特征输入训 练好的拼音预测模型, 得到对应所述待处理字的拼音概率序列, 所述拼音概率序列包括至 少两个预设拼音及其对应的概 率值; 确定所述 拼音概率序列中最大概 率值对应的预设拼音为预测拼音; 相应地, 所述根据所述预测字、 所述待处理字和预设损失函数, 计算字预测损失, 以所 述字预测损失为依据, 对所述编码模型和所述字预测模型进行训练, 得到所述训练好的编 码模型和所述训练好的字预测模型包括: 根据所述预测拼音、 所述真实拼音和所述损失函数, 计算 拼音预测损失; 根据所述预测字、 所述待处 理字和所述损失函数, 计算所述字预测损失; 以所述字预测损失和所述拼音预测损失之和为依据, 对所述编码模型和所述字预测模 型进行联合训练, 得到所述训练好的编码模型和所述训练好的字预测模型。 8.一种融合多源特 征的合同文本纠错系统, 其特 征在于, 所述 合同文本纠错系统包括: 特征融合模块, 用于提取待识别文本 中每个字的字向量、 位置向量、 拼音向量和字形向 量, 将所述字向量、 所述位置向量、 所述拼音向量和所述字形向量相加后输入训练好的编码权 利 要 求 书 2/3 页 3 CN 115438650 A 3
专利 融合多源特征的合同文本纠错方法、系统、设备及介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:24:43
上传分享
举报
下载
原文档
(688.5 KB)
分享
友情链接
GB-T 30275-2013 信息安全技术 鉴别与授权 认证中间件框架与接口规范.pdf
GB-T 40482-2021 城市发展质量评价指标.pdf
T-CACE 087.1—2023 基于项目的温室气体减排量评估技术规范 互联网平台闲置物品交易 通用要求.pdf
GB-T 36670-2018 城市道路交通组织设计规范.pdf
GB-T 2032-2018 船用法兰消火栓.pdf
T-CSAE 137—2020 汽车紧固点防水密封性能试验及评价方法.pdf
GB-T 42560-2023 系统与软件工程 开发运维一体化 能力成熟度模型.pdf
DB13-T 5372-2021 社会工作服务项目监测与 评估规范 河北省.pdf
GB-T 43435-2023 信息安全技术 移动互联网应用程序 App 软件开发工具包 SDK 安全要求.pdf
T-ACEF 060—2023 塑料包装替代材料 碳减排量核算准则.pdf
GB-T 7921-2008 均匀色空间和色差公式.pdf
NIST 隐私框架 1.0-通过企业的风险管理改善隐私的工具 .pdf
DB13-T 5181-2020 尾矿库溃坝泥石流数值模拟技术规程 河北省.pdf
T-CNLIC 0035—2021 家用和类似用途电器 显控面板用户界面设计通则.pdf
GB-T 26019-2010 高杂质钨矿化学分析方法 三氧化钨量的测定 二次分离灼烧重量法.pdf
T-CSIA 014—2023 开放式景区消防安全评估导则.pdf
奇安信 中国首席安全官研究报告.pdf
江苏省公共数据管理办法.pdf
GB-T 22483-2008 中国山脉山峰名称代码.pdf
T-SDL 3.1—2021 10kV智能电缆系统技术规范 第1部分 导则.pdf
交流群
-->
1
/
20
评价文档
赞助2元 点击下载(688.5 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。