安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210669299.4 (22)申请日 2022.06.14 (71)申请人 中华人民共和国南京海关 地址 210000 江苏省南京市秦淮区龙蟠中 路360号 (72)发明人 朱立平 易欣 徐倩  (74)专利代理 机构 北京德崇智捷知识产权代理 有限公司 1 1467 专利代理师 王斌 (51)Int.Cl. G06V 30/412(2022.01) G06V 10/77(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种不规则排版发票单据布局预测方法、 装 置及存储介质 (57)摘要 本发明公开了一种不规则排版发票单据版 面布局预测方法、 预测装置及存储介质, 不规则 排版发票单据版面布局预测方法包括: 利用扫描 仪或相机采集不规则排版单据信息; 将采集到的 不规则排版单据信息进行标注并将已标注数据 划分为训练集与测试集; 使用训练集训练得到版 面布局预测模 型; 使用测试集测试版面布局预测 模型的效果, 根据测试效果调整模型的超参数, 直至获得理想的模型通过预测模型预测不规则 排版发票单据版面布局。 本发明优点在于结合不 规则排版 发票单据的高维视觉特征、 低维视觉随 机变化和语义特征对其进行版面布局预测, 弥补 了传统版面 分析语义信息少、 视觉语义融合简单 的问题, 提高了对布局不规则发票版面分析的精 度。 权利要求书3页 说明书7页 附图1页 CN 115205877 A 2022.10.18 CN 115205877 A 1.一种不 规则排版发票单据版面布局预测方法, 其特 征在于, 包括: 步骤1: 采集 不规则排版 单据信息; 步骤2: 对采集到的不规则排版单据信 息进行标注, 并将标注的数据分为训练集和测试 集; 其中, 标注的每组数据包括文字标注信息、 文字 框选信息及图像信息; 步骤3: 使用训练集训练得到版面布局预测模型: 将文档图像和文本嵌入分别作为视觉 模块和语义模块的输入, 其中视觉模块使用不同规模卷积神经网络主干提取高低维度视觉 特征; 语意模块提取多尺度文档语义特征; 通过关系特征聚合模块, 将视觉特征和语义特征 结合起来学习一个多模态特 征图, 得到语义标签和坐标; 步骤4: 使用测试集测试版面布局预测模型的效果, 根据测试效果调整版面布局预测模 型的超参数, 重复步骤3, 直至获得满足测试效果的版面布局预测模型; 步骤5: 通过版面布局预测模型预测不规则排版发票单据语义标签从而得到对应的版 面布局。 2.根据权利要求1所述的不规则排版发票单据布局预测方法, 其特征在于, 所述步骤2 中不规则单据信息标注包括文档RGB图像、 文本 定位与标注包括字符级和句子级。 3.根据权利要求1所述的不规则排版发票单据布局预测方法, 其特征在于, 所述步骤3, 包括: 步骤3‑1: 训练集中文档图像作为视觉模块输入, 输入图像 使用其中不同 尺度的卷积神经网络提取多维度视觉特征, 不同维度特征表示为S1, S2, S3, ...Si..., 其中, i表示第i维度, H表示输入图像x高度, W表示输入图像x宽度, 表示特征图Si的通 道维度, 且S0=x; 步骤3‑2: 语义模块将文本嵌入映射 作为输入引入文档语义, T0与文档图 像x具有相同的空间大小, 表示初始通道 尺寸; 文档页面的字符表示 为 句子表示 为 其 中 n 和 m 分 别 是 字 符 和 句 子 的 总 数 ;ck和 是第k个字符及其关联框, 其中(x0, y0)和(x1, y1)是左上和右下像素坐 标; sk和 是第k个句子及其关联框, 由卷积神 经网络中的ConvNet得到多维度文档语义特 征W1, W2, W3, ...Wi...; 步骤3‑3: 将视觉特征S1, S2, S3, ...和语义特征W1, W2, W3, ..., 利用注意力机制连接起 来, 作为卷积层输入学习得到聚合视觉与 语义的多模态特征MFi; 使用标准对象检测或分割 模型Mask  RCNN在文档中生成候选组件; 使用图形神经网络来建模组件关系以及优化预测 结果; 步骤3‑4: 计算两部分损失L(Θ)=Lcls+λLgen, 语义标签的交叉熵损失作为分类损失 Lcls, 平滑L1损失作为 坐标回归损失Lgen; 步骤3‑5: 反向传播, 使用随机梯度下降法对 模型参数Θ进行优化; 步骤3‑6: 读取下一组序列的文档图像和文本嵌入信息, 跳转步骤3 ‑1, 直至将训练集中 的数据读取完;权 利 要 求 书 1/3 页 2 CN 115205877 A 2步骤3‑7: 重复执行步骤3 ‑1至3‑6并持续对模型参数Θ进行优化, 直至使L(Θ)下降到 设定的数量级。 4.根据权利要求3所述的不规则排版发票单据布局预测方法, 其特征在于, 所述步骤3 ‑ 1, 包括: 通过Residual  block模块不同大小的卷积核对文档图像高低维度特征进行提取, 输出 特征S1, S2, S3, ...Si..., 计算公式如(1)(2): S0=x    (1) 其中, fi, j(·)表示Residual  block(·)模块; i=1, 2, ..., l; c, l为超参数。 5.根据权利要求3所述的不规则排版发票单据布局预测方法, 其特征在于, 所述步骤3 ‑ 2, 包括: 使用两个映射函数以 和 为输入构造字符嵌入映射 和句子嵌入映 射 计算公式如(3)(4)所示: 其中, Ec(·)是一个单词嵌入层, Es(·)采用预训练语言模型Ber t; 根据Char和Sent, 得到文本嵌入映射, 计算公式如(5)所示: W0=LayerNormal(Char+Sent)     (5) 其中, LayerN ormal(·)为映射函数。 6.根据权利要求3所述的不规则排版发票单据布局预测方法, 其特征在于, 所述步骤3 ‑ 3, 包括: 不同维度视觉特征Si和语义特征和Wi作为注意力机制模块的输入, 将两种模态特征连 接起来并将其送入卷积层获得多模态特 征MFi, 计算公式如(6)(7)所示: Atti=MultiA tt([Si, Wi])     (6) MFi=Atti⊙Si+(1‑Atti)⊙Wi    (7) 其中, [·,·]表示级联操作, MultiAtt( ·)表示一个多头注意力模块, ⊙表示元素对 乘法; 通过聚合视觉和语义特征生成一组 融合的多模态特征M Fi; 然后使用图形神经网络来建 模组件关系; 文档表示为图的形式G=(O, E), 其中O={o1, o2, ..., on}表示点集, E表示边集, 每个节 点表示之前由对象检测模型生成的候选组件, 每条边表示两个候选组件之间的关系, 权 利 要 求 书 2/3 页 3 CN 115205877 A 3

.PDF文档 专利 一种不规则排版发票单据布局预测方法、装置及存储介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种不规则排版发票单据布局预测方法、装置及存储介质 第 1 页 专利 一种不规则排版发票单据布局预测方法、装置及存储介质 第 2 页 专利 一种不规则排版发票单据布局预测方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:43:54上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。