(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210425713.7
(22)申请日 2022.04.21
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦二层
(72)发明人 张晓强 黄聚 钦夏孟 章成全
姚锟
(74)专利代理 机构 北京清亦华知识产权代理事
务所(普通 合伙) 11201
专利代理师 单冠飞
(51)Int.Cl.
G06V 30/18(2022.01)
G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06K 9/62(2022.01)G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 20/00(2019.01)
(54)发明名称
文本识别方法、 装置、 电子设备和存 储介质
(57)摘要
本申请公开了文本识别方法、 装置、 电子设
备和存储介质, 涉及人工智能技术领域, 具体为
深度学习、 图像处理、 计算机视觉技术领域, 可应
用于OCR等场景。 具体方案为: 获取待识别文本图
像; 对待识别文本图像进行特征提取, 以获取待
识别文本图像的图像特征; 根据图像特征和预设
的文本实例分割向量提取待识别文本图像之中
的各文本实例, 并确定各文本实例对应的注意力
特征; 对各文本实例对应的注意力特征进行解
码, 生成各文本实例对应的识别结果。 该方法通
过利用文本实例分割向量, 将文本实例进行对应
和区分, 得到实例级别的注意力特征, 根据实例
级别的注意力特征, 得到实例级别的识别结果,
无需复杂的人工后处理, 提升了自然场景下文本
识别结果的准确性。
权利要求书3页 说明书11页 附图5页
CN 114863437 A
2022.08.05
CN 114863437 A
1.一种文本识别方法, 包括:
获取待识别文本图像;
对所述待识别文本图像进行 特征提取, 以获取 所述待识别文本图像的图像特 征;
根据所述图像特征和预设的文本实例分割向量提取所述待识别文本图像之中的各文
本实例, 并确定所述各文本实例对应的注意力特 征;
对所述各文本实例对应的注意力特征进行解码, 以生成所述各文本实例对应的识别结
果。
2.如权利要求1所述的方法, 其中, 所述对所述各文本实例对应的注意力特征进行解
码, 以生成所述各文本实例对应的识别结果, 包括:
将所述各文本实例对应的注意力特征分别 输入到检测网络、 识别网络和分类网络之中
的一个或多个进行解码, 以生成所述各文本实例对应的识别结果, 其中, 所述识别结果包括
检测结果、 文本识别结果和分类结果之中的一个或多个。
3.如权利要求1所述的方法, 其中, 所述根据 所述图像特征和预设的文本实例分割向量
提取所述待识别文本图像之中的各文本实例, 并确定所述各文本实例对应的注意力特征,
包括:
对所述图像特征和所述文本实例分割向量进行解码, 以提取所述待识别文本图像之中
的所述各文本实例, 并获取 所述各文本实例对应的文本特 征;
对所述图像特征和所述各文本实例对应的文本特征进行融合, 以确定所述各文本实例
对应的注意力特 征。
4.如权利要求3所述的方法, 其中, 所述对所述图像特征和所述文本实例分割向量进行
解码, 以提取所述待识别文本图像之中的所述各文本实例, 并获取所述各文本实例对应的
文本特征, 包括:
将所述文本实例分割向量输入到解码模块中的自注意力层进行解码, 以获取所述文本
实例分割向量对应的中间特 征;
将所述中间特征与 所述图像特征输入到所述解码模块中的交叉注意力层进行解码, 以
提取所述待识别文本图像中的所述各文本实例, 并获取 所述各文本实例对应的文本特 征。
5.如权利要求3所述的方法, 其中, 所述图像特征为多尺度图像特征, 所述对所述图像
特征和所述文本实例分割向量进 行解码, 以提取所述待识别文本图像之中的所述各文本实
例, 并获取 所述各文本实例对应的文本特 征, 包括:
获取所述多尺度图像特 征中尺度小于第一阈值的图像特 征;
对所述小于第 一阈值的图像特征和所述文本实例分割向量进行解码, 以提取所述待识
别文本图像之中的所述各文本实例, 并获取 所述各文本实例对应的文本特 征。
6.如权利要求3所述的方法, 其中, 所述图像特征为多尺度图像特征, 所述对所述图像
特征和所述各文本实例对应的文本特征进 行融合, 以确定所述各文本实例对应的注意力特
征, 包括:
对所述多尺度图像特征中尺度大于第二阈值的图像特征和所述各文本实例对应的文
本特征进 行融合, 以确定所述各文本实例对应的注意力特征, 其中, 所述第二阈值大于所述
第一阈值。
7.一种文本识别装置, 包括:权 利 要 求 书 1/3 页
2
CN 114863437 A
2第一获取模块, 用于获取待识别文本图像;
第二获取模块, 用于对所述待识别文本 图像进行特征提取, 以获取所述待识别文本 图
像的图像特 征;
确定模块, 用于根据 所述图像特征和预设的文本实例分割向量提取所述待识别文本图
像之中的各文本实例, 并确定所述各文本实例对应的注意力特 征;
生成模块, 用于对所述各文本实例对应的注意力特征进行解码, 以生成所述各文本实
例对应的识别结果。
8.如权利要求7 所述的装置, 其中, 所述 生成模块, 用于:
将所述各文本实例对应的注意力特征分别 输入到检测网络、 识别网络和分类网络之中
的一个或多个进行解码, 以生成所述各文本实例对应的识别结果, 其中, 所述识别结果包括
检测结果、 文本识别结果和分类结果之中的一个或多个。
9.如权利要求7 所述的装置, 其中, 所述确定模块, 包括:
获取单元, 用于对所述图像特征和所述文本实例分割向量进行解码, 以提取所述待识
别文本图像之中的所述各文本实例, 并获取 所述各文本实例对应的文本特 征;
融合单元, 用于对所述图像特征和所述各文本实例对应的文本特征进行融合, 以确定
所述各文本实例对应的注意力特 征。
10.如权利要求9所述的装置, 其中, 所述获取 单元, 用于:
将所述文本实例分割向量输入到解码模块中的自注意力层进行解码, 以获取所述文本
实例分割向量对应的中间特 征;
将所述中间特征与 所述图像特征输入到所述解码模块中的交叉注意力层进行解码, 以
提取所述待识别文本图像中的所述各文本实例, 并获取 所述各文本实例对应的文本特 征。
11.如权利要求9所述的装置, 其中, 所述图像特征为多尺度图像特征, 所述获取单元,
用于:
获取所述多尺度图像特 征中尺度小于第一阈值的图像特 征;
对所述小于第 一阈值的图像特征和所述文本实例分割向量进行解码, 以提取所述待识
别文本图像之中的所述各文本实例, 并获取 所述各文本实例对应的文本特 征。
12.如权利要求9所述的装置, 其中, 所述图像特征为多尺度图像特征, 所述融合单元,
用于:
对所述多尺度图像特征中尺度大于第二阈值的图像特征和所述各文本实例对应的文
本特征进 行融合, 以确定所述各文本实例对应的注意力特征, 其中, 所述第二阈值大于所述
第一阈值。
13.一种电子设备, 包括:
至少一个处 理器; 以及
与所述至少一个处 理器通信连接的存 储器; 其中,
所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处
理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于
使所述计算机执 行根据权利要求1 ‑6中任一项所述的方法。
15.一种计算机程序产品, 包括计算机程序, 所述计算机程序在被处理器执行时实现权权 利 要 求 书 2/3 页
3
CN 114863437 A
3
专利 文本识别方法、装置、电子设备和存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:07:02上传分享