安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111674220.9 (22)申请日 2021.12.31 (71)申请人 福建亿能达信息技 术股份有限公司 地址 350000 福建省福州市 鼓楼区软件大 道89号福州软件园A区28号楼二层 (72)发明人 黄家昌 赖奇嵘 杨辉 邱道椿  (74)专利代理 机构 福州市鼓楼区京华专利事务 所(普通合伙) 35212 专利代理师 王美花 (51)Int.Cl. G06V 30/42(2022.01) G06V 30/20(2022.01) G06V 10/25(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种针打的士票的识别方法、 装置、 设备和 介质 (57)摘要 本发明提供一种针 打的士票的识别方法、 装 置、 设备和介质, 方法包括: 通过文本检测模型检 测处于正确角度的针打的士票图片, 提取包含文 字的感兴趣区域, 具体先通过主干网络提取深层 次信息; 再通过空间金字塔层得到不同尺度的特 征信息; 将不同尺度的特征信息拼接后由所述双 头网络决定最终保留的感兴趣区域; 再通过文本 识别模型获取各个感兴趣区域更深层次的信息, 得到各个感兴趣区域中的针打字体的预测结果; 然后通过全连接层对预测结果进行字符级别的 分类, 得到各个感兴趣区域的字符串; 最后根据 获取得到的各个感兴趣区域的字符串, 利用模板 匹配的方式获取的士票中的各类信息。 从而使本 发明能顺利识别针打的士票。 权利要求书4页 说明书9页 附图3页 CN 114511868 A 2022.05.17 CN 114511868 A 1.一种针打的士票的识别方法, 其特 征在于: 包括下述 步骤: S1、 检测角度模型检测针打的士票图片的输入角度, 若输入角度不是正确角度, 则将输 入角度旋转 为正确角度; S2、 文本检测模型检测处于正确角度的所述针打的士票图片, 提取所述针打的士票图 片中各个包 含文字的感兴趣区域, 具体包括: 先通过主干网络提取 所述针打的士票图片中的深层次信息; 再通过空间金字塔层得到不同尺度的特 征信息; 将不同尺度的特征信 息拼接后作为解耦的双头网络的输入, 由所述双头网络决定最终 保留的感兴趣区域; S3、 将切割出的各个感兴趣区域作为文本识别 模型的输入, 经过卷积、 池化和激活函数 后, 获取更深层次的信息, 得到各个感兴趣区域中的针打字体的预测结果; S4、 通过全连接层对预测结果进行字符级别的分类, 得到各个感兴趣区域的字符串; S5、 根据获取得到的各个感兴趣区域的字符串, 利用模板匹配的方式获取的士票中的 各类信息 。 2.根据权利要求1所述的一种针打的士票的识别方法, 其特征在于: 所述文本检测模型 和所述文本识别模型是预先训练过的智能模型, 训练方法是: 通过文字图片的生成手段, 生 成一系列存在与针打文字类似的文字图片, 作为训练集对所述文本检测模 型和所述文本识 别模型进行训练, 从而提升模型对针打的士票特殊字体的偏好; 所述文本检测模型的主干网络为Darknet, 所述空间金字塔层包括一系列的最大池化 层和一个跳跃 连接层构成的多个并行分支结构; 所述文本识别模型包括五个3 *3卷积层。 3.根据权利要求1或2所述的一种针打的士票的识别方法, 其特征在于: 所述文本检测 模型构成如下: 第一部分是主干网络, 用来 提取深层次的信息; 第一层是输入层, 输入图像; 第二层是 卷积层, 卷积核为3 *3, 通道数为32; 第三层是残差卷积层, 包括一个卷积核为3*3, 通道数为32的卷积层和一个卷积核为3* 3, 通道数为64的卷积层; 第四层是残差卷积层, 包括一个卷积核为1*1, 通道数为64的卷积层和一个卷积核为3* 3, 通道数为128的卷积层; 第五层是残差卷积层, 包括一个卷积核为1*1, 通道数为128的卷积层和一个卷积核为 3*3, 通道数为25 6的卷积层; 第六层是残差卷积层, 包括一个卷积核为1*1, 通道数为256的卷积层和一个卷积核为 3*3, 通道数为512的卷积层; 第七层是 卷积层, 卷积核为3 *3, 通道数为512; 第八层是残差卷积层, 包括一个卷积核为1*1, 通道数为512的卷积层和一个卷积核为 3*3, 通道数为1024的卷积层; 第二部分是空间金字塔层, 用来整合不同尺度的信息, 空间金字塔层包括一系列并行 的最大池化层, 以整合 不同尺度的信息;权 利 要 求 书 1/4 页 2 CN 114511868 A 2第一列是原 始数据; 第二列是最大池化层, 滑动窗口为3 *3; 第三列是最大池化层, 滑动窗口为5 *5; 第四列是最大池化层, 滑动窗口为9*9; 第五列是最大池化层, 滑动窗口为13 *13; 第三部分拼接第二部分各卷积层输出的不同维度的数据, 并输入到解耦的双头网络 中, 双头网络具有相同的网络结构; 其中一头网络的网络结构为: 第一层是 卷积层, 卷积核为1*1, 通道数为25 6, 激活函数为ReLU; 第三层是残差卷积层, 包括一个卷积核为3*3, 通道数为256的卷积层和一个卷积核为 3*3, 通道数为25 6的卷积层; 第三层是卷积层, 卷积核为1*1, 通道数为256, 激活函数为ReLU, 输出特征为感兴趣区 域的做分类预测; 另一头网络的 的网络结构为: 第一层是 卷积层, 卷积核为1*1, 通道数为25 6, 激活函数为ReLU; 第三层是残差卷积层, 包括一个卷积核为3*3, 通道数为256的卷积层和一个卷积核为 3*3, 通道数为25 6的卷积层; 第三层是卷积层, 卷积核为1*1, 通道数为256, 激活函数为ReLU, 输出特征为感兴趣区 域的做回归预测。 4.根据权利要求1或2所述的一种针打的士票的识别方法, 其特征在于: 所述文本识别 模型构成如下: 第一层是 卷积层, 卷积核为3 *3, 填充为1*1, 步长为1*1, 通道数为64; 第二层是最大池化层, 滑动窗口为2*2, 步长为2*2; 第三层是 卷积层, 卷积核为3 *3, 填充为1*1, 步长为1*1, 通道数为128; 第四层是最大池化层, 滑动窗口为2*2, 步长为2*2; 第五层是 卷积层, 卷积核为3 *3, 填充为1*1, 步长为1*1, 通道数为25 6; 第六层是 卷积层, 卷积核为3 *3, 填充为1*1, 步长为1*1, 通道数为25 6; 第七层是最大池化层, 滑动窗口为1*2, 步长为2*2; 第八层是卷积层, 卷积核为3*3, 填充为1*1, 步长为1*1, 通道数为512, 归一化方法为 BN; 第九层是最大池化层, 滑动窗口为2*2, 步长为1*1; 第十层是 卷积层, 卷积核为2*2, 步长为1*1, 通道数为512; 第十层是长短期记 忆网络层, 隐藏单 元数为512; 第十一层是长短期记 忆网络层, 隐藏单 元数为512。 5.一种针打的士票的识别装置, 其特 征在于: 包括: 检测角度模型, 用于检测针打的士票图片的输入角度, 若输入角度不是正确角度, 则将 输入角度旋转 为正确角度; 文本检测模型, 用于检测 处于正确角度的所述针打的士票图片, 提取所述针打的士票 图片中各个包含文字的感兴趣区域, 具体包括: 先通过主干网络提取所述针打的士票图片权 利 要 求 书 2/4 页 3 CN 114511868 A 3

.PDF文档 专利 一种针打的士票的识别方法、装置、设备和介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种针打的士票的识别方法、装置、设备和介质 第 1 页 专利 一种针打的士票的识别方法、装置、设备和介质 第 2 页 专利 一种针打的士票的识别方法、装置、设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:49:12上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。