(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210328626.X
(22)申请日 2022.03.30
(71)申请人 北京贝壳时代网络科技有限公司
地址 101520 北京市密云区兴盛南路8号院
2号楼106室-802(商务区集中办公区)
(72)发明人 李琳
(74)专利代理 机构 北京润平知识产权代理有限
公司 11283
专利代理师 高英英
(51)Int.Cl.
G06T 7/13(2017.01)
G06V 10/26(2022.01)
G06V 10/22(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
用于检测文本的方法和装置
(57)摘要
本发明实施例提供一种用 于检测文本的方
法和装置, 属于计算机视觉 领域。 该方法包括: 将
待检测文本的图像输入到神经网络结构中, 以得
到所述图像的多个像素点中的每一像素点的像
素点信息; 针对所述多个像素点中的任一像素
点, 基于所述上边概率、 所述下边概率、 所述第一
中间概率、 所述左边概率、 所述右边概率和所述
第二中间概率, 确定所述像素点的第一标签和第
二标签; 根据所述多个像素点的所述第一标签和
所述第二标签, 确定处于同一行文本中的所述上
边界角点和所述下边界角点; 以及连接处于同一
行文本中的所述上边界角点和所述下边界角点,
以得到一行文本区域检测框。 藉此, 解决文本区
域边界有很多不平整的毛刺的问题, 减轻了耗时
现象。
权利要求书2页 说明书13页 附图2页
CN 114663456 A
2022.06.24
CN 114663456 A
1.一种用于检测文本的方法, 其特 征在于, 该 方法包括:
将待检测文本的图像输入到神经网络结构中, 以得到所述图像的多个像素点中的每一
像素点的像素点信息, 其中, 针对所述多个像素点中的任一像素点, 所述像素点信息包括所
述像素点的上边概率、 下边概率、 第一中间概率、 左边概率、 右 边概率以及第二中间概率, 其
中, 所述上边概率和所述下边概率分别表征所述像素点位于所述图像的待检测文本区域中
单行文本区域的上边界和下边界的概率, 所述第一中间概率表征所述像素点位于所述单行
文本区域的除所述上边界和下边界之外的第一中间位置的概率, 所述左边概率和所述右 边
概率分别表征所述像素点位于所述单行文本区域的左边界和右 边界的概率, 所述第二中间
概率表征所述像素点位于所述单行文本区域的除所述左边界和所述右边界外的第二中间
位置的概 率;
针对所述多个像素点中的任一像素点, 基于所述上边概率、 所述下边概率、 所述第一中
间概率、 所述左边概率、 所述右 边概率和所述第二中间概率, 确定所述像素点的第一标签和
第二标签, 其中, 所述第一标签表明所述像素点为所述单行文本区域的上边界角点、 下边界
角点和第一中间角点中的哪一者, 所述第二标签表明所述像素点为所述单行文本区域的起
始角点、 第二中间角点和终止角点中的哪一 者;
根据所述多个像素点的所述第 一标签和所述第 二标签, 确定处于同一行文本中的所述
上边界角点和所述下边界角点; 以及
连接处于同一行文本中的所述上边界角点和所述下边界角点, 以得到一行文本区域检
测框。
2.根据权利要求1所述的方法, 其特征在于, 针对所述多个像素点中的任一像素点, 基
于所述上边概率、 所述下边概率、 所述第一中间概率、 所述左边概率、 所述右边概率和所述
第二中间概 率, 确定所述像素点的第一标签和第二标签, 包括:
将所述上边概率、 所述下边概率和所述第一中间概率进行比较以及将所述左边概率、
所述右边概率和所述第二中间概率进行比较, 以确定所述上边概率、 所述下边概率和所述
第一中间概率中的第一最大者和所述左边概率、 所述右 边概率和所述第二中间概率中的第
二最大者; 以及
基于所述第一 最大者确定所述第一标签并基于所述第二 最大者确定所述第二标签。
3.根据权利要求1所述的方法, 其特征在于, 根据 所述多个像素点的所述第 一标签和所
述第二标签确定处于同一行文本中的所述上边界角点和所述下边界角点包括:
针对任一上边界起始角点,
确定与所述上边界起始角点处于同一行文本中的所述上边界角点;
确定与所述上边界起始角点距离最近的下边界起始角点; 以及
确定与距离所述上边界起始角点最近的所述下边界起始角点处于同一行文本中的所
述下边界角点, 其中, 所述上边界起始角点是所述第一标签表明为所述上边界角点及所述
第二标签表明为所述起始角点的所述像素点, 所述下边界起始角点是所述第一标签表明为
所述下边界角点及所述第二标签表明为所述 起始角点的所述像素点。
4.根据权利要求3所述的方法, 其特征在于, 针对任一所述上边界起始角点, 确定与所
述上边界起始角点处于同一行文本中的所述上边界角点、 与所述上边界起始角点距离最近
的下边界起始角点以及与距离所述上边界起始角点最近的所述下边界起始角点处于同一权 利 要 求 书 1/2 页
2
CN 114663456 A
2行文本中的所述下边界角点包括:
查找与所述上边界起始角点距离最近的所述上边界角点, 在所找到的上边界角点为所
述第二中间角点的情况下, 继续查找与所找到的上边界角点距离最近的所述上边界角点,
不断循环查找过程, 直到所找到的上边界角点为所述 终止角点, 其中, 所有所找到的上边界
角点即为与所述上边界起始角点处于同一行文本中的所述上边界角点;
查找与所述上边界起始角点距离最近的所述下边界起始角点; 以及
根据查找与 所述上边界起始角点处于同一行文本中的所述上边界角点的内容, 查找与
所找到的下边界起始角点处于同一行文本中的所述下边界角点, 以得到与距离所述上边界
起始角点 最近的所述下边界起始角点处于同一行文本中的所述下边界角点。
5.根据权利要求4所述的方法, 其特征在于, 针对任一所述像素点, 所述像素点信息还
包括坐标位置,
针对任一所述上边界起始角点, 以下中至少一者利用欧式度量: 查找距离最近的所述
上边界角点、 查找 距离最近的所述下边界起始角点以及查找 距离最近的所述下边界角点。
6.根据权利要求1所述的方法, 其特征在于, 所述神经网络结构的输出层为卷积层, 所
述输出层输出的特征图对应所述上边概率、 所述下边概率、 所述第一中间概率、 所述左边概
率、 所述右边 概率以及所述第二中间概 率,
优选地, 所述神经网络结构的输出层包括第一卷积层和第 二卷积层, 其中, 所述第一卷
积层输出 的特征图对应所述上边概率、 所述下边概率以及所述第一中间概率, 所述第二卷
积层输出的特 征图对应所述左边 概率、 所述右边 概率以及所述第二中间概 率。
7.根据权利要求6所述的方法, 其特征在于, 所述神经网络结构被训练时采用的损失函
数为:
其中, L1为所述第一卷积层的损失函数, L2为所述第二卷积层的损失函数, f1对应所述
第一卷积层输出的特征图, f2对应所述第二 卷积层输出的特征图, k表示 特征维度, f1ijk表示
所述第一卷积层输出的特征图中第i行第 j列的像素点的第k维的概率, Pijk表示所述第一卷
积层输出的特征图中第i行第j列的像素点 的第k维的预设概率, f2ijk表示所述第二卷积层
输出的特征图中第i行第 j列的像素点的第k维的概率, Qijk表示所述第二卷积层输出的特征
图中第i行第j列的像素点的第k维的预设概率, 所述第一卷积层和所述第二卷积层输出 的
特征图分别具有H *W个像素点。
8.根据权利要求6或7所述的方法, 其特征在于, 所述神经网络结构还满足以下条件: 对
输入的图像先进行下采样再进行上采样并且下采样阶段和上采样阶段中的特征维度相同
的特征图被融合; 和/或进行 下采样的隐藏层为resnet结构。
9.一种机器可读存储介质, 其特征在于, 该机器可读存储介质上存储有指令, 该指令用
于使得机器执 行权利要求1 ‑8中任一项所述的方法。
10.一种计算机程序产品, 包括计算机程序/指令, 其特征在于, 该计算机程序/指令被
处理器执行时实现权利要求1 ‑8中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114663456 A
3
专利 用于检测文本的方法和装置
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:39:33上传分享