[发明专利]票据信息区域自动识别和提取方法及设备在审

专利信息
申请号: 201310082322.0 申请日: 2013-03-15
公开(公告)号: CN103208004A 公开(公告)日: 2013-07-17
发明(设计)人: 谭宜勇;张屹;吴玉峰;郑邦东 申请(专利权)人: 北京英迈杰科技有限公司
主分类号: G06K9/54 分类号: G06K9/54
代理公司: 北京骥驰知识产权代理有限公司 11422 代理人: 朱智勇
地址: 100041 北京市石景山区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 票据 信息 区域 自动识别 提取 方法 设备
【权利要求书】:

1.一种票据信息区域自动识别和提取方法,包括以下步骤:

票据图像预处理,包括对票据图像进行去黑边、去噪点、纠偏以及灰度化处理;

利用预先通过信息区域训练自学习而构建的信息区域特征数据库,对经过预处理的票据图像进行信息区域识别;

边界和底纹处理,包括对所识别的信息区域进行重叠区域合并、去除底纹干扰、突出字符颜色以及二值化处理;

字符区域增强处理,包括对经过边界和底纹处理的信息区域中的字符区域进行字符区域分割和膨胀腐蚀处理;以及

提取经过字符区域增强处理的各个信息区域。

2.根据权利要求1所述的票据信息区域自动识别和提取方法,其中,在所述票据图像预处理步骤中:通过边界连续黑值判断,去除票据图像中因为扫描出现的黑边;对整幅票据图像进行区域大小为3*3的中值滤波,以去除扫描产生的噪点;通过Hough变换来检测票据图像中的长线段,统计相应最大的两个垂直方向,然后根据标准的矩形方向进行旋转,以实现对票据图像的纠偏。

3.根据权利要求1所述的票据信息区域自动识别和提取方法,其中,

在所述信息区域训练自学习中:对样本票据图像进行AdaBoost算法和Haar算法训练,以获取每个信息区域的级联分类器特征值;使用Canny边缘检测算子和Hough变换算法来检测票据分割线;采用尺度不变特征变换SIFT或快速鲁棒特征SURF特征点算法来区分不同的信息区域,

所构建的信息区域特征数据库包含样本票据图像的不同信息区域的标识符、名称、功能描述、字符和底纹的颜色RGB值、SIFT/SURF特征向量、级联分类器特征值、相对的票据分割线位置、相对的信息区域的位置和大小。

4.根据权利要求3所述的票据信息区域自动识别和提取方法,其中,在所述信息区域识别步骤中:通过SIFT/SURF特征点算法获得经过预处理的票据图像的SIFT/SURF特征向量,将其与所述信息区域特征数据库中的SIFT/SURF特征向量进行比对,以排查没有任何待识别的信息区域的票据;利用所述信息区域特征数据库中的级联分类器特征值对该票据图像进行窗口搜索,找到匹配的信息区域;根据所述信息区域特征数据库中的相对的票据分割线位置,判断匹配的信息区域的合理性,以去掉不合理的匹配信息区域;从所述信息区域特征数据库中获取合理的匹配信息区域的区域信息。

5.根据权利要求1所述的票据信息区域自动识别和提取方法,其中,在所述边界和底纹处理步骤中:将所识别的信息区域中的重叠区域合并成连通域,通过水平投影、垂直投影、像素连续性检测算法来获取更精细的连续边界;通过所述信息区域特征数据库中的颜色RGB值对所识别的信息区域进行颜色过滤,以去除底纹干扰;对所识别的信息区域中的字符相近颜色进行加强处理,以突出字符颜色;通过动态阈值算法,对所识别的信息区域进行二值化处理。

6.根据权利要求1所述的票据信息区域自动识别和提取方法,其中,

所述字符区域增强处理步骤中的字符区域分割处理包括:对字符周边有边框的,去除该边框;采用引入先验知识的基于连通域的层次化切分方法进行普通字符分割,

在所述引入先验知识的基于连通域的层次化切分方法中:使用Canny边缘检测算子来检测边缘;采用基于行列投影的方法来递归分割粘连在一起的目标,其中,初始的目标是通过种子填充得到的每个运动目标,在每次迭代的过程中对当前目标进行行列投影以找到一个最佳的切分位置,这个切分位置具有最小的投影值也即所花代价最小,在该最佳的切分位置将当前目标切分成两部分,对这两部分分别进行递归迭代处理,直到没有可切分的位置也即最小切分投影值大于预设的阈值。

7.根据权利要求1所述的票据信息区域自动识别和提取方法,其中,所述字符区域增强处理步骤中的膨胀腐蚀处理包括:根据所述信息区域特征数据库中的字符的颜色RGB值,判断字符区域中的主要像素颜色;通过膨胀和腐蚀算法,扩展或者收缩有效字符区域,以排除不连续的像素点。

8.根据权利要求1所述的票据信息区域自动识别和提取方法,其中,所述提取经过字符区域增强处理的各个信息区域步骤包括:将所提取的各个信息区域分别存储为二值化图像;利用光学字符识别OCR对所提取的各个信息区域中的字符区域进行字符识别以输出文本。

9.一种票据信息区域自动识别和提取设备,包括:

票据图像预处理装置,用于对票据图像进行去黑边、去噪点、纠偏以及灰度化处理;

信息区域识别装置,用于利用预先通过信息区域训练自学习而构建的信息区域特征数据库,对经过票据图像预处理装置处理的票据图像进行信息区域识别;

边界和底纹处理装置,用于对由信息区域识别装置识别的信息区域进行重叠区域合并、去除底纹干扰、突出字符颜色以及二值化处理;

字符区域增强处理装置,用于对经过边界和底纹处理装置处理的信息区域中的字符区域进行字符区域分割和膨胀腐蚀处理;以及

信息区域提取装置,用于提取经过字符区域增强处理装置处理的各个信息区域。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京英迈杰科技有限公司,未经北京英迈杰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310082322.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top