安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221041691 1.7 (22)申请日 2022.04.20 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 曹润东  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 杨欢 (51)Int.Cl. G06V 30/413(2022.01) G06V 30/18(2022.01) G06V 30/186(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06V 10/764(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文档字号的识别方法、 装置、 计算机设备和 存储介质 (57)摘要 本申请涉及一种文档字号的识别方法、 装 置、 计算机设备、 存储介质和计算机程序产品, 结 合人工智能技术进行计算机视觉识别和处理, 可 应用于云技术、 人工智能、 智慧交通、 辅助 驾驶等 各种场景。 所述方法包括: 获取待处理的文档图 片, 检测文档图片中各文本行的初始行高度; 根 据文档图片的文档版面信息确定至少一个待处 理的文本块; 根据初始行高度确定行高度统计信 息, 并基于行高度统计信息确定与相应待处理的 文本块对应的目标行高度; 基于预先设置的字号 映射规则、 以及各待处理的文本块分别对应的目 标行高度, 得到文档图片中各文本块分别对应的 目标字号。 采用本方法能够解决出现原本相同字 号的标题或段落识别到的字号大小不 一的问题。 权利要求书3页 说明书16页 附图7页 CN 115131803 A 2022.09.30 CN 115131803 A 1.一种文档字号的识别方法, 其特 征在于, 所述方法包括: 获取待处 理的文档图片, 检测所述文档图片中各文本行的初始行高度; 识别所述文档图片的文档版面信 息, 并根据 所述文档版面信 息确定至少一个待处理 的 文本块, 每 个待处理的文本块中包括有至少一个相连续的文本行; 对于任一待处理的文本块, 根据相应待处理的文本块所包括的文本行的初始行高度, 确定行高度统计信息, 并基于所述行高度统计信息确定与相应待处理的文本块对应的目标 行高度; 基于预先设置的字号映射规则、 以及各待处理的文本块分别对应的目标行高度, 得到 所述文档图片中各文本块分别对应的目标字号。 2.根据权利要求1所述的方法, 其特征在于, 所述检测所述文档图片中各文本行的初始 行高度, 包括: 对所述文档图片进行 特征提取, 得到多张不同尺度的特 征图; 对所述多张不同尺度的特 征图进行 特征融合, 得到融合特 征图; 基于所述融合特征图进行文本行检测 处理, 得到包括有包围文本行的目标检测框, 并 将所述目标检测框的高度作为所述文本行的初始行高度。 3.根据权利要求1所述的方法, 其特征在于, 所述识别所述文档图片的文档版面信息, 并根据所述文档版面信息确定 至少一个待处 理的文本块, 包括: 基于所述文档图片进行文档版面识别处理, 得到所述文档图片中包括的多个文本块, 以及每个文本块各自对应的版块类别; 获取目标版块类别, 所述目标版块类别至少包括标题版块类别和段落版块类别中的一 种; 将与所述目标 版块类别对应的文本块, 作为待处 理的文本块。 4.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 基于所述文档图片的文档版面信息, 建立以待处理的文本块为索引的数据存储结构, 所述数据存 储结构中包括有 多个分组, 每 个分组对应一个待处 理的文本块; 将属于同一待处理的文本块的文本行, 均存储至所述数据存储结构中相应待处理的文 本块对应的分组中; 各个分组用于并行对各自所存储的文本行进行行高度的调整, 得到相 应文本块所对应的目标 行高度。 5.根据权利要求1所述的方法, 其特征在于, 所述文档版面信 息包括所述文档图片中包 括的多个文本块, 以及每个文本块各自对应的版块类别, 所述版块类别包括页边版块类别; 所述方法还 包括: 将对应于页边版块类别的预设文本字号, 作为所述页边版块类别所对应的文本块对应 的文本字号。 6.根据权利要求1所述的方法, 其特征在于, 所述根据相应待处理 的文本块所包括的文 本行的初始行高度, 确定行高度 统计信息, 并基于所述行高度 统计信息确定与相应待处理 的文本块对应的目标 行高度, 包括: 根据相应待处理 的文本块所包括的文本行的初始行高度, 计算相应待处理的文本块中 文本行的行高度均值; 基于相应待处理 的文本块中文本行的行高度均值, 确定相应待处理的文本块对应的目权 利 要 求 书 1/3 页 2 CN 115131803 A 2标行高度。 7.根据权利要求6所述的方法, 其特征在于, 所述基于相应待处理 的文本块中文本行的 行高度均值, 确定相应待处 理的文本块对应的目标 行高度, 包括: 根据相应待处理 的文本块所包括的文本行的初始行高度, 确定相应待处理的文本块所 对应的高度变化极值; 基于各个待处 理的文本块对应的行高度均值确定参照行高度; 确定所述参照行高度与相应待处理 的文本块的行高度均值的差异, 根据 所述差异与 所 述高度变化极值, 确定相应待处 理的文本块的目标 行高度。 8.根据权利要求7所述的方法, 其特征在于, 所述根据所述差异与所述高度变化极值, 确定相应待处 理的文本块的目标 行高度, 包括: 在所述差异小于所述高度变化极值的情况下, 将所述参照行高度作为相应待处理的文 本块对应的目标 行高度; 在所述差异大于或等于所述高度变化极值的情况下, 将相应待处理的文本块的行高度 均值作为相应文本块对应的目标 行高度。 9.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 基于预先设置的字号映射规则, 对所述文档图片中未处理 的文本块分别对应的初始行 高度进行转换, 得到未处 理的各文本块分别对应的目标字号。 10.根据权利要求1至9中任一项所述的方法, 其特 征在于, 所述方法还 包括: 基于预先设置的字号映射规则, 确定参照行高度所映射得到的字号参照值, 所述参照 行高度基于所有 待处理的文本块各自对应的行高度统计信息确定得到; 确定所述字号参照 值与预设基础字号之间的差异, 并根据 所述差异对各文本块分别对 应的目标字号进行修 正, 得到各文本块分别对应的文本 字号。 11.根据权利要求10所述的方法, 其特 征在于, 所述方法还 包括: 基于所述文档图片中的各文本块分别对应的文本字号, 将各文本块中所包括的文本行 按照相应的文本 字号进行转换, 得到与所述文档图片对应的、 且属于文本格式的目标文档。 12.一种文档字号的识别装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取待处 理的文档图片, 检测所述文档图片中各文本行的初始行高度; 处理模块, 用于识别所述文档图片的文档版面信息, 并根据所述文档版面信息确定至 少一个待处 理的文本块, 每 个待处理的文本块中包括有至少一个相连续的文本行; 所述处理模块, 还用于对于任一待处理的文本块, 根据相应待处理的文本块所包括的 文本行的初始行高度, 确定行高度 统计信息, 基于所述行高度 统计信息确定与相应待处理 的文本块对应的目标 行高度; 输出模块, 用于基于预先设置的字号映射规则、 以及各待处理的文本块分别对应的目 标行高度, 得到所述文档图片中各文本块分别对应的目标字号。 13.一种计算机设备, 包括存储器和 处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1至1 1中任一项所述的方法的步骤。 14.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至1 1中任一项所述的方法的步骤。 15.一种计算机程序产品, 包括计算机程序, 其特征在于, 该计算机程序被处理器执行权 利 要 求 书 2/3 页 3 CN 115131803 A 3

.PDF文档 专利 文档字号的识别方法、装置、计算机设备和存储介质

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文档字号的识别方法、装置、计算机设备和存储介质 第 1 页 专利 文档字号的识别方法、装置、计算机设备和存储介质 第 2 页 专利 文档字号的识别方法、装置、计算机设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:39:10上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。