[发明专利]票据信息区域自动识别和提取方法及设备在审
| 申请号: | 201310082322.0 | 申请日: | 2013-03-15 |
| 公开(公告)号: | CN103208004A | 公开(公告)日: | 2013-07-17 |
| 发明(设计)人: | 谭宜勇;张屹;吴玉峰;郑邦东 | 申请(专利权)人: | 北京英迈杰科技有限公司 |
| 主分类号: | G06K9/54 | 分类号: | G06K9/54 |
| 代理公司: | 北京骥驰知识产权代理有限公司 11422 | 代理人: | 朱智勇 |
| 地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 票据 信息 区域 自动识别 提取 方法 设备 | ||
1.一种票据信息区域自动识别和提取方法,包括以下步骤:
票据图像预处理,包括对票据图像进行去黑边、去噪点、纠偏以及灰度化处理;
利用预先通过信息区域训练自学习而构建的信息区域特征数据库,对经过预处理的票据图像进行信息区域识别;
边界和底纹处理,包括对所识别的信息区域进行重叠区域合并、去除底纹干扰、突出字符颜色以及二值化处理;
字符区域增强处理,包括对经过边界和底纹处理的信息区域中的字符区域进行字符区域分割和膨胀腐蚀处理;以及
提取经过字符区域增强处理的各个信息区域。
2.根据权利要求1所述的票据信息区域自动识别和提取方法,其中,在所述票据图像预处理步骤中:通过边界连续黑值判断,去除票据图像中因为扫描出现的黑边;对整幅票据图像进行区域大小为3*3的中值滤波,以去除扫描产生的噪点;通过Hough变换来检测票据图像中的长线段,统计相应最大的两个垂直方向,然后根据标准的矩形方向进行旋转,以实现对票据图像的纠偏。
3.根据权利要求1所述的票据信息区域自动识别和提取方法,其中,
在所述信息区域训练自学习中:对样本票据图像进行AdaBoost算法和Haar算法训练,以获取每个信息区域的级联分类器特征值;使用Canny边缘检测算子和Hough变换算法来检测票据分割线;采用尺度不变特征变换SIFT或快速鲁棒特征SURF特征点算法来区分不同的信息区域,
所构建的信息区域特征数据库包含样本票据图像的不同信息区域的标识符、名称、功能描述、字符和底纹的颜色RGB值、SIFT/SURF特征向量、级联分类器特征值、相对的票据分割线位置、相对的信息区域的位置和大小。
4.根据权利要求3所述的票据信息区域自动识别和提取方法,其中,在所述信息区域识别步骤中:通过SIFT/SURF特征点算法获得经过预处理的票据图像的SIFT/SURF特征向量,将其与所述信息区域特征数据库中的SIFT/SURF特征向量进行比对,以排查没有任何待识别的信息区域的票据;利用所述信息区域特征数据库中的级联分类器特征值对该票据图像进行窗口搜索,找到匹配的信息区域;根据所述信息区域特征数据库中的相对的票据分割线位置,判断匹配的信息区域的合理性,以去掉不合理的匹配信息区域;从所述信息区域特征数据库中获取合理的匹配信息区域的区域信息。
5.根据权利要求1所述的票据信息区域自动识别和提取方法,其中,在所述边界和底纹处理步骤中:将所识别的信息区域中的重叠区域合并成连通域,通过水平投影、垂直投影、像素连续性检测算法来获取更精细的连续边界;通过所述信息区域特征数据库中的颜色RGB值对所识别的信息区域进行颜色过滤,以去除底纹干扰;对所识别的信息区域中的字符相近颜色进行加强处理,以突出字符颜色;通过动态阈值算法,对所识别的信息区域进行二值化处理。
6.根据权利要求1所述的票据信息区域自动识别和提取方法,其中,
所述字符区域增强处理步骤中的字符区域分割处理包括:对字符周边有边框的,去除该边框;采用引入先验知识的基于连通域的层次化切分方法进行普通字符分割,
在所述引入先验知识的基于连通域的层次化切分方法中:使用Canny边缘检测算子来检测边缘;采用基于行列投影的方法来递归分割粘连在一起的目标,其中,初始的目标是通过种子填充得到的每个运动目标,在每次迭代的过程中对当前目标进行行列投影以找到一个最佳的切分位置,这个切分位置具有最小的投影值也即所花代价最小,在该最佳的切分位置将当前目标切分成两部分,对这两部分分别进行递归迭代处理,直到没有可切分的位置也即最小切分投影值大于预设的阈值。
7.根据权利要求1所述的票据信息区域自动识别和提取方法,其中,所述字符区域增强处理步骤中的膨胀腐蚀处理包括:根据所述信息区域特征数据库中的字符的颜色RGB值,判断字符区域中的主要像素颜色;通过膨胀和腐蚀算法,扩展或者收缩有效字符区域,以排除不连续的像素点。
8.根据权利要求1所述的票据信息区域自动识别和提取方法,其中,所述提取经过字符区域增强处理的各个信息区域步骤包括:将所提取的各个信息区域分别存储为二值化图像;利用光学字符识别OCR对所提取的各个信息区域中的字符区域进行字符识别以输出文本。
9.一种票据信息区域自动识别和提取设备,包括:
票据图像预处理装置,用于对票据图像进行去黑边、去噪点、纠偏以及灰度化处理;
信息区域识别装置,用于利用预先通过信息区域训练自学习而构建的信息区域特征数据库,对经过票据图像预处理装置处理的票据图像进行信息区域识别;
边界和底纹处理装置,用于对由信息区域识别装置识别的信息区域进行重叠区域合并、去除底纹干扰、突出字符颜色以及二值化处理;
字符区域增强处理装置,用于对经过边界和底纹处理装置处理的信息区域中的字符区域进行字符区域分割和膨胀腐蚀处理;以及
信息区域提取装置,用于提取经过字符区域增强处理装置处理的各个信息区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京英迈杰科技有限公司,未经北京英迈杰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310082322.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:序批式苎麻分纤水洗机
- 下一篇:一种电催化还原对苯醌生产对苯二酚的方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





