(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221041691 1.7
(22)申请日 2022.04.20
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 曹润东
(74)专利代理 机构 华进联合专利商标代理有限
公司 44224
专利代理师 杨欢
(51)Int.Cl.
G06V 30/413(2022.01)
G06V 30/18(2022.01)
G06V 30/186(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06V 10/764(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
文档字号的识别方法、 装置、 计算机设备和
存储介质
(57)摘要
本申请涉及一种文档字号的识别方法、 装
置、 计算机设备、 存储介质和计算机程序产品, 结
合人工智能技术进行计算机视觉识别和处理, 可
应用于云技术、 人工智能、 智慧交通、 辅助 驾驶等
各种场景。 所述方法包括: 获取待处理的文档图
片, 检测文档图片中各文本行的初始行高度; 根
据文档图片的文档版面信息确定至少一个待处
理的文本块; 根据初始行高度确定行高度统计信
息, 并基于行高度统计信息确定与相应待处理的
文本块对应的目标行高度; 基于预先设置的字号
映射规则、 以及各待处理的文本块分别对应的目
标行高度, 得到文档图片中各文本块分别对应的
目标字号。 采用本方法能够解决出现原本相同字
号的标题或段落识别到的字号大小不 一的问题。
权利要求书3页 说明书16页 附图7页
CN 115131803 A
2022.09.30
CN 115131803 A
1.一种文档字号的识别方法, 其特 征在于, 所述方法包括:
获取待处 理的文档图片, 检测所述文档图片中各文本行的初始行高度;
识别所述文档图片的文档版面信 息, 并根据 所述文档版面信 息确定至少一个待处理 的
文本块, 每 个待处理的文本块中包括有至少一个相连续的文本行;
对于任一待处理的文本块, 根据相应待处理的文本块所包括的文本行的初始行高度,
确定行高度统计信息, 并基于所述行高度统计信息确定与相应待处理的文本块对应的目标
行高度;
基于预先设置的字号映射规则、 以及各待处理的文本块分别对应的目标行高度, 得到
所述文档图片中各文本块分别对应的目标字号。
2.根据权利要求1所述的方法, 其特征在于, 所述检测所述文档图片中各文本行的初始
行高度, 包括:
对所述文档图片进行 特征提取, 得到多张不同尺度的特 征图;
对所述多张不同尺度的特 征图进行 特征融合, 得到融合特 征图;
基于所述融合特征图进行文本行检测 处理, 得到包括有包围文本行的目标检测框, 并
将所述目标检测框的高度作为所述文本行的初始行高度。
3.根据权利要求1所述的方法, 其特征在于, 所述识别所述文档图片的文档版面信息,
并根据所述文档版面信息确定 至少一个待处 理的文本块, 包括:
基于所述文档图片进行文档版面识别处理, 得到所述文档图片中包括的多个文本块,
以及每个文本块各自对应的版块类别;
获取目标版块类别, 所述目标版块类别至少包括标题版块类别和段落版块类别中的一
种;
将与所述目标 版块类别对应的文本块, 作为待处 理的文本块。
4.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
基于所述文档图片的文档版面信息, 建立以待处理的文本块为索引的数据存储结构,
所述数据存 储结构中包括有 多个分组, 每 个分组对应一个待处 理的文本块;
将属于同一待处理的文本块的文本行, 均存储至所述数据存储结构中相应待处理的文
本块对应的分组中; 各个分组用于并行对各自所存储的文本行进行行高度的调整, 得到相
应文本块所对应的目标 行高度。
5.根据权利要求1所述的方法, 其特征在于, 所述文档版面信 息包括所述文档图片中包
括的多个文本块, 以及每个文本块各自对应的版块类别, 所述版块类别包括页边版块类别;
所述方法还 包括:
将对应于页边版块类别的预设文本字号, 作为所述页边版块类别所对应的文本块对应
的文本字号。
6.根据权利要求1所述的方法, 其特征在于, 所述根据相应待处理 的文本块所包括的文
本行的初始行高度, 确定行高度 统计信息, 并基于所述行高度 统计信息确定与相应待处理
的文本块对应的目标 行高度, 包括:
根据相应待处理 的文本块所包括的文本行的初始行高度, 计算相应待处理的文本块中
文本行的行高度均值;
基于相应待处理 的文本块中文本行的行高度均值, 确定相应待处理的文本块对应的目权 利 要 求 书 1/3 页
2
CN 115131803 A
2标行高度。
7.根据权利要求6所述的方法, 其特征在于, 所述基于相应待处理 的文本块中文本行的
行高度均值, 确定相应待处 理的文本块对应的目标 行高度, 包括:
根据相应待处理 的文本块所包括的文本行的初始行高度, 确定相应待处理的文本块所
对应的高度变化极值;
基于各个待处 理的文本块对应的行高度均值确定参照行高度;
确定所述参照行高度与相应待处理 的文本块的行高度均值的差异, 根据 所述差异与 所
述高度变化极值, 确定相应待处 理的文本块的目标 行高度。
8.根据权利要求7所述的方法, 其特征在于, 所述根据所述差异与所述高度变化极值,
确定相应待处 理的文本块的目标 行高度, 包括:
在所述差异小于所述高度变化极值的情况下, 将所述参照行高度作为相应待处理的文
本块对应的目标 行高度;
在所述差异大于或等于所述高度变化极值的情况下, 将相应待处理的文本块的行高度
均值作为相应文本块对应的目标 行高度。
9.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
基于预先设置的字号映射规则, 对所述文档图片中未处理 的文本块分别对应的初始行
高度进行转换, 得到未处 理的各文本块分别对应的目标字号。
10.根据权利要求1至9中任一项所述的方法, 其特 征在于, 所述方法还 包括:
基于预先设置的字号映射规则, 确定参照行高度所映射得到的字号参照值, 所述参照
行高度基于所有 待处理的文本块各自对应的行高度统计信息确定得到;
确定所述字号参照 值与预设基础字号之间的差异, 并根据 所述差异对各文本块分别对
应的目标字号进行修 正, 得到各文本块分别对应的文本 字号。
11.根据权利要求10所述的方法, 其特 征在于, 所述方法还 包括:
基于所述文档图片中的各文本块分别对应的文本字号, 将各文本块中所包括的文本行
按照相应的文本 字号进行转换, 得到与所述文档图片对应的、 且属于文本格式的目标文档。
12.一种文档字号的识别装置, 其特 征在于, 所述装置包括:
获取模块, 用于获取待处 理的文档图片, 检测所述文档图片中各文本行的初始行高度;
处理模块, 用于识别所述文档图片的文档版面信息, 并根据所述文档版面信息确定至
少一个待处 理的文本块, 每 个待处理的文本块中包括有至少一个相连续的文本行;
所述处理模块, 还用于对于任一待处理的文本块, 根据相应待处理的文本块所包括的
文本行的初始行高度, 确定行高度 统计信息, 基于所述行高度 统计信息确定与相应待处理
的文本块对应的目标 行高度;
输出模块, 用于基于预先设置的字号映射规则、 以及各待处理的文本块分别对应的目
标行高度, 得到所述文档图片中各文本块分别对应的目标字号。
13.一种计算机设备, 包括存储器和 处理器, 所述存储器存储有计算机程序, 其特征在
于, 所述处 理器执行所述计算机程序时实现权利要求1至1 1中任一项所述的方法的步骤。
14.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序
被处理器执行时实现权利要求1至1 1中任一项所述的方法的步骤。
15.一种计算机程序产品, 包括计算机程序, 其特征在于, 该计算机程序被处理器执行权 利 要 求 书 2/3 页
3
CN 115131803 A
3
专利 文档字号的识别方法、装置、计算机设备和存储介质
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:39:10上传分享