[发明专利]收据图像处理方法和设备有效

专利信息
申请号: 201110270388.3 申请日: 2011-08-31
公开(公告)号: CN102968610A 公开(公告)日: 2013-03-13
发明(设计)人: 常兰兰;孙俊;何源;于浩;直井聪 申请(专利权)人: 富士通株式会社
主分类号: G06K9/00 分类号: G06K9/00;G07D7/20
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 王萍;李春晖
地址: 日本神*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 收据 图像 处理 方法 设备
【说明书】:

技术领域

本申请总体上涉及图像处理的领域,更具体而言,涉及一种收据图像处理方法和设备。

背景技术

收据是一种常用的金融票据。在实际应用中,经常通过扫描仪等图像捕获设备来捕获收据图像,然后对捕获的收据图像进行内容分析以获得相关信息。但是,对收据图像进行内容分析常常存在很多困难,例如,在收据图像中,收据的长度通常根据其中记录项的多少而变化,即收据图像中包含的文本行的行数根据其中记录项的多少而变化,一般一个记录项对应一类物品,并且一个记录项通常包含若干文本行,每个文本行分别描述该类物品的相关信息,例如金额、识别码、折扣等;又例如,在收据图像中,收据的抬头通常是开具该收据的公司的标识,该标识一般难以准确切割并且难以通过OCR技术来准确识别。因此,现有技术中进行内容分析的可靠性和准确性较差。

发明内容

在下文中将给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。

根据本申请的实施例,提供了一种收据图像处理方法,该方法可包括:根据金额的特征信息检测收据图像中表示金额的金额数字;根据金额数字来识别收据图像中包含金额数字的特征行;以及基于所述特征行的位置分布,分别将所述收据图像中的各个文本行分组到彼此之间相似的若干重复块中。这样,通过将收据图像中的文本行分组到彼此之间相似的重复块中,可以以重复块为单元对收据图像进行内容分析,从而显著提高收据图像的内容分析的可靠性和准确性。

根据本申请的实施例,检测步骤可包括:将收据图像切分成行和词;在各个文本行的右对齐位置搜索最后两位或倒数第二、三位字符为两个连续数字的十进制数字;以及根据十进制数字与之前字符或词之间的距离,以及之前字符或词本身的属性,来确定金额数字。

根据本发明的实施例,识别步骤包括:以已经被识别出的特征行为参照,计算收据图像中的各个文本行与已经被识别出的特征行之间的第一相似度;以及将第一相似度大于预定阈值的文本行也识别为特征行。

根据本发明的实施例,分组步骤包括:分别以特征行为边界,将特征行以及位于特征行与其之后最邻近的特征行之间的各个文本行,分组到同一重复块中。

根据本发明的实施例,分别计算重复块中除特征行以外的各个文本行与其它重复块中除特征行以外的各个文本行之间的第二相似度;将第二相似度大于预定阈值的文本行作为重复模式;以及将具有最多重复模式的重复块作为代表重复块。

根据本申请的实施例,提供了一种收据图像处理设备,该设备可包括:检测装置,用于根据金额的特征信息检测收据图像中表示金额的金额数字;识别装置,用于根据金额数字来识别收据图像中包含金额数字的特征行;以及分组装置,用于基于所述特征行的位置分布,分别将所述收据图像中的各个文本行分组到彼此之间相似的若干重复块中。这样,通过分组装置将收据图像中的文本行分组到彼此之间相似的重复块中,可以以重复块为单元对收据图像进行内容分析,从而显著提高收据图像的内容分析的可靠性和准确性。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:

图1示出根据本发明的一个实施例的收据图像处理方法的处理的流程图;

图2示出根据本发明的一个实施例的检测收据图像中的金额数字的处理的流程图;

图3是示出从收据图像中检测到的金额数字的示意图;

图4是示出收据图像中的文本行的词属性串的示意图;

图5示出根据本发明的一个实施例的校正收据图像中的特征行的处理的流程图;

图6是示出特征行与文本行之间的第一相似度的示意图;

图7是示出利用金额数字的位置信息验证第一相似度的示意图;

图8示出根据本发明的一个实施例的确定代表重复块的处理的流程图;

图9是示出从收据图像中识别的特征行的示意图;

图10是示出对收据图像中的文本行进行分组而得到的重复块的示意图;

图11A示出根据发明的一个实施例的对数据图像进行划分并利用重复块对收据图像进行聚类的处理的流程图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110270388.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top