[发明专利]一种基于目标检测和文本识别的票据信息识别方法在审
申请号: | 202011428503.0 | 申请日: | 2020-12-09 |
公开(公告)号: | CN112364837A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 杨懿龄;刘楚雄;肖欣庭;池明辉 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 陈艺文 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 目标 检测 文本 识别 票据 信息 方法 | ||
本发明公开了一种基于目标检测和文本识别的票据信息识别方法,包括步骤A,票据图像收集及票据图像集准备;步骤B,文本目标检测;步骤C,文本目标裁剪;步骤D,文字目标识别;步骤E,票据文本信息整理及输出。本发明的基于目标检测和文本识别的票据信息识别方法,将有固定票面规格的票据图像通过OLOv4目标检测模型进行文本目标检测,并进行文本目标裁剪、识别、整理、输出,实现对票据进行特定信息的提取、识别,提高票据信息识别的准确性,并减少代码的维护成本,提高票据信息的识别效率。
技术领域
本发明涉及人工智能深度学习、财务电子化技术领域,具体涉及一种基于目标检测和文本识别的票据信息识别方法。
背景技术
在票据识别方面,随着社会发展和经济进步,票据的识别检测工作量也逐步变大,智能化识别票据成为迫切的需求。在过去,票据上的各种关键字段信息全部由人工筛选识别,这种单一繁复的工作耗时巨大。随着深度学习方法的进步,在票据识别领域一般采用卷积神经网络模型的方法,例如一些基于深度学习神经网络的文本检测和文字识别。但是目前使用的此类方法都有一些缺陷,他们通常无法达到类似端到端的票据信息提取效果,经过文本检测和文字识别后,无法将票据中的具体信息进行有效的区分和匹配,如对于经过文字识别后的文本信息,仍然需要人工来对字段进行分析。产生缺陷的技术原因是目前市场上缺乏可用于票据的高性能的端到端识别网络,票面文本信息的复杂和密集使得其最终的识别效果不好,从而不得不增加人工干预的一步。
综上,现有技术中仍然存在以下问题:对于有固定票面规格的发票,仍然需要对已识别出的文本进行字段信息的人工分析,工作量较大,且对于每一种不同票面的票据,人工进行后处理分析的方法都不同,当票据识别服务需要新增或修改,业务代码将具有很大的维护成本。
发明内容
本发明的目的在于提供一种基于目标检测和文本识别的票据信息识别方法,采用基于深度学习神经网络的目标检测和文本识别方法,来对票据进行特定的信息提取识别,解决现有对于有固定票面规格的发票识别解决方案中存在的代码维护成本高,时间成本高的问题。
为实现上述目的,本发明采用的技术方案为一种基于目标检测和文本识别的票据信息识别方法,包括:
步骤A,票据图像收集及票据图像集准备;对某一固定票面的票据图像进行收集,剔除存在印刷信息严重错位及不可用的票据图像,作为票据图像集;然后对票据中的字段分别进行数据标注;将数据集按9:1的比例划分为训练集和测试集,并对训练集进行数据增强;
步骤B,文本目标检测;利用训练集的票据图像对OLOv4目标检测模型进行训练;将待检测的票据图像导入训练后的OLOv4目标检测模型进行文本的检测,检测到票据图像的文本目标字段,并将检测结果按数据标注的标签进行分类保存;
步骤C,文本目标裁剪;提取步骤B所检测到的文本目标字段的边框坐标信息,并以此对检测后的票据图像进行裁剪,得到检测出的不同字段的票据字段文本图像;
步骤D,文字目标识别;将步骤C所得到的票据字段文本图像导入文本识别网络CRNN进行文字识别,得到文本信息并将结果保存至步骤B的标签相对应的数据中;
步骤E,票据文本信息整理及输出;对文字识别后的文本信息进行整理,将整理后的文本信息与对应的标签格式化输出,完成对票据信息的提取识别。
进一步地,所述数据增强的方法,包括:步骤A100,利用传统数字图像处理方法,将划分后的训练集按照一定阈值进行随机缩放、平移、旋转和放射变换。
进一步地,所述数据增强的方法,还包括:步骤A200,利用随机擦除方法,对利用传统数字图像处理方法处理前的训练集票据图像随机擦除一个矩形区域。
进一步地,所述步骤E中,对文本信息进行整理的方法包括:对部分特定输出格式的文本使用正则匹配的方式进行约束输出;对非法格式输出进行修正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011428503.0/2.html,转载请声明来源钻瓜专利网。