[发明专利]一种基于深度学习的级联式文本关键字段检测方法有效
申请号: | 202110334566.8 | 申请日: | 2021-03-29 |
公开(公告)号: | CN112949574B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 汪增福;吴仕莲 | 申请(专利权)人: | 中国科学院合肥物质科学研究院 |
主分类号: | G06V30/416 | 分类号: | G06V30/416;G06V30/18;G06V30/19;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230031 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 级联 文本 关键 字段 检测 方法 | ||
本发明公开了一种基于深度学习的级联式文本关键字段检测方法,其步骤包括:首先收集文档图片并进行人工标注,建立关键字段检测数据集;接着构建基于深度学习的级联式文本关键字段检测模型;然后运行基于深度学习的级联式文本关键字段检测模型,得到检测结果;最后根据检测结果对文本关键字段进行后处理,得到矫正后的关键字段。本发明无需复杂的后处理,能够直接针对图像输出关键字段所在位置,便于后续的关键字段识别。
技术领域
本发明涉及涉及文档分析领域的相关问题,具体涉及一种基于深度学习的级联式文本关键字段检测方法。
背景技术
文档分析中,一个关键的技术就是结构化:即很多时候并不需要对文档中的每一个文字都进行检测识别,而只需要识别那些客户所需要的字段信息。如在保险单识别中,客户只需要保险单号、姓名、价格与保险时间这些字段的识别结果,其他的保险条款等内容是无用信息。在行驶证识别中,只需要识别车牌号码、姓名与注册日期等字段。
目前的一般方法都是根据关键字段的位置来设计一系列规则,之后利用这些规则去检测关键字段。但这种方法鲁棒性很差,只要测试的图片稍有变化,就需要重新设计参数来检测关键字段,并且精度低,检测的字段位置不精确。
发明内容
本发明克服了现有技术的不足之处,提供一种基于深度学习的级联式文本关键字段检测方法,以期通过深度学习方法来提取丰富的上下文特征,从而提升关键字段检测的准确率与鲁棒性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于深度学习的级联式文本关键字段检测方法的特点在于,包括以下步骤:
步骤1:收集文档图片并进行人工标注,建立用于关键字段检测的图片数据集;
步骤2:构建基于深度学习的级联式文本关键字段检测模型,包括:基于热力图回归的关键字段检测模型HeatNet、基于角点检测的字段矫正模型RectifyNet;
所述基于热力图回归的关键字段检测模型HeatNet,包含:4组StemBlock层、一组检测模块与4个最大池化层;每组StemBlock层由M个深度可分离卷积、1个1×1卷积组成;所述检测模块由4层卷积组成;
所述基于角点检测的字段矫正模型RectifyNet由1个可变形卷积组成;
步骤3:运行基于深度学习的级联式文本关键字段检测模型;
步骤3.1:将所述图片数据集中的一张文档图片X送入所述关键字段检测模型HeatNet的4组StemBlock层中,每经过1组StemBlock层的M个深度可分离卷积以及一个1×1卷积处理后,再经过一个最大池化层的下采样处理,从而在经过4个SteamBlock层以及4个最大池化层处理后,得到尺寸为的特征图F,其中,H和W是文档图片X的高与宽;
其中,利用式(1)得到第一个StemBlock层的输出Out1:
Out1=MaxPool(Conv1(DWConvM1(X))) (1)
式(1)中,DWConvM1(·)表示第一个StemBlock层的M个深度可分离卷积操作,其卷积核的输出通道数为C1;Conv1(·)表示卷积核为1×1的第一卷积操作,其卷积核的输出通道数为C1;MaxPool(·)表示步长为2的最大池化层;
利用式(2)得到第二个StemBlock层的输出Out2:
Out2=MaxPool(Conv2(DWConvM2(Out1))) (2)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院合肥物质科学研究院,未经中国科学院合肥物质科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110334566.8/2.html,转载请声明来源钻瓜专利网。