[发明专利]票据信息处理方法、系统及计算机可读存储介质有效
申请号: | 201811032403.9 | 申请日: | 2018-09-06 |
公开(公告)号: | CN109308476B | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | 邬国锐;王庆庆;朱亚卓 | 申请(专利权)人: | 邬国锐 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62;G06K9/20 |
代理公司: | 北京致科知识产权代理有限公司 11672 | 代理人: | 魏红雅 |
地址: | 100871 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 票据 目标文本 信息处理 计算机可读存储介质 定位模型 属性分类 文本区域 神经网络模型 相对位置关系 定位目标 定位属性 多个目标 机器学习 票据信息 分类 纠偏 准确率 核验 | ||
本发明公开一种票据信息处理方法、系统及计算机可读存储介质,其中,票据信息处理方法包括:对特定类型票据采用深度神经网络模型进行训练,获取该特定类型票据上多个目标文本区域的定位模型;根据定位模型对待处理票据上目标文本区域进行定位;利用机器学习形成属性分类模型并对待处理票据上已定位的目标文本区域进行分类,确定至少一个目标文本区域的属性;根据已确定目标文本区域的属性、已定位目标文本区域之间的相对位置关系及属性分类模型,获取待处理票据上属性未确定的目标文本区域的属性,和/或对待处理票据上已确定目标文本区域的属性进行第一核验纠偏。本发明可有效提升票据信息定位属性分类的准确率。
技术领域
本发明涉及图像处理技术领域,尤其涉及一种票据信息处理方法、系统及计算机可读存储介质。
背景技术
在日常工作或生活中,会用到各种票据,票据的核对统计工作不仅业务量大,而且需要专业人员完成,随着计算机技术在各个领域的快速应用,对票据信息处理工作由机器来完成也成为一种趋势。
目前机器对印在纸上的信息的提取主要采用光学字符识别(Optical CharacterRecognition,以下简称:OCR)技术,其利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。OCR的处理步骤主要包括:图像预处理、版面分析、文本定位(或叫图像切割)、字符切割和识别等。在OCR处理步骤中,文本定位主要是采用投影方式找到高度和宽度范围的坐标,从而确定文本的坐标区域。这种文本定位方法可以较好地处理书籍、报刊等复杂度低的版面信息,但在处理复杂度高的票据版面信息时,若票据信息打印出现倾斜或错位,文本压线,就会出现定位不准,从而导致定位出的文本属性与实际的文本属性不一致的问题,因此,票据信息识别提取的错误率较高,从而无法有效地进行机器处理。
发明内容
本发明提供一种票据信息处理方法、系统及计算机可读存储介质,用以克服上述现有技术中存在的技术问题,以提高票据信息的定位和属性分类的准确率,从而提升机器处理票据信息的有效性。
本发明提供的一种票据信息处理方法,包括:
对特定类型票据上待提取的目标文本区域对应的矩形框进行坐标标注,形成模板图;
对该特定类型票据样本采用深度神经网络模型进行训练提取图像特征,计算每个像素为文本和非文本的概率,以及计算每个像素与其临近像素是否为相同类别的概率,形成待提取的目标文本区域对应的样本图像概率图;
计算训练特定类型票据样本生成的样本图像概率图和坐标标注的矩形框对应的模板图之间的图像损失,基于图像损失调整模板图,当样本图像概率图和模板图之间的误差保持稳定时,以调整后的模板图作为该特定类型待处理票据上待提取的多个目标文本区域的定位模型;
根据定位模型对待处理票据上目标文本区域进行定位;
利用机器学习形成属性分类模型并对待处理票据上已定位目标文本区域进行分类,确定至少一个目标文本区域的属性;
根据已确定目标文本区域的属性、已定位目标文本区域之间的相对位置关系及属性分类模型,获取待处理票据上属性未确定的目标文本区域的属性,和/或对待处理票据上已确定目标文本区域的属性进行第一核验纠偏。
本发明还提供一种票据信息处理方法,包括:
对特定类型票据上待提取的目标文本区域对应的矩形框进行坐标标注以及属性分类标注,形成模板图;
对该特定类型票据样本采用深度神经网络模型进行训练提取图像特征,计算每个像素为文本和非文本的概率,以及计算每个像素与其临近像素是否为相同类别的概率,形成待提取的目标文本区域对应的样本图像概率图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于邬国锐,未经邬国锐许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811032403.9/2.html,转载请声明来源钻瓜专利网。