[发明专利]一种增值税发票的识别方法有效
申请号: | 201710073714.9 | 申请日: | 2017-02-10 |
公开(公告)号: | CN106875546B | 公开(公告)日: | 2019-02-05 |
发明(设计)人: | 王新年;廖玉钦;王慧玉 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G07D7/206 | 分类号: | G07D7/206 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 李馨 |
地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 增值税发票 识别 方法 | ||
本发明提供一种增值税发票的识别方法,其特征在于,包括如下步骤:对输入的发票图像进行预处理;对发票图像进行选项区域定位;字符分割;字符区域分为9块;提取每个图像块的HOG特征,得到9个一维的HOG特征序列;特征序列分别与模板做比对,得到差异系数;根据差异系数的大小,为这9块赋予不同权重,生成权重矩阵;将权重与差异系数加权求和,得到候选字符差异得分,计算每个候选字符差异得分,取最小值对应字符为匹配结果;对每个切分后的字符重复上述步骤直至完成发票各项内容的识别。本发明有效地实现对增值税发票中的汉字模块识别,同时对形近字区分能力增强,具有光照不变性和旋转不变性,抗干扰能力更强,对模糊字符有着较好的识别能力。
技术领域
本发明涉及一种增值税发票的识别方法,特别是针对形近字有着较高的辨别能力。
背景技术
现有技术中,对于增值税发票识别,通常采用如下方式:通过表格模板定制,设置识别区域,识别属性,调用专用的字符,进行选项区域识别,根据识别属性进行识别后处理,最后输出结构化的识别结果;或者在使用清华TH-OCR技术的基础上,对发票进行多项预处理操作,具体有纠偏、偏色校正、滤色、降噪、二值化、增强识别单元对比度等功能,这些功能可灵活配置、自由组合,为之后识别输出最优的图像质量。
目前,对于增值税发票识别存在以下问题:
1、目前增值税发票识别中通常只识别数字,缺少对增值税发票中汉字的识别模块;
2、对于形近字的区分能力相对较弱,容易出现误识的情况;
3、增值税发票纸质为复写纸,打印时字符笔画容易粘连,造成识别困难。
发明内容
根据上述提出的技术问题,而提供一种增值税发票的识别方法。本发明主要利用通过对输入图像的预处理、票据选项定位、字符分割、字符区域分块、提取HOG特征、对比识别、块权重分配到输出核对,对增值税发票进行识别,从而有效的实现对增值税发票中的汉字模块识别,同时对形近字区分能力增强。
本发明采用的技术手段如下:
一种增值税发票的识别方法,其特征在于,包括如下步骤:
S1、对输入的发票图像进行预处理:提取原始彩色发票图像的r分量,作为灰度图像,对灰度图像进行中值滤波操作,减少噪点,对灰度图像进行Radon变换,进行倾斜校正;
S2、对发票图像进行选项区域定位:寻找标记点,进行选项区域定位,截取各选项区域,分别二值化处理得到黑底白字图像;
S3、字符分割:将各选项区域的字符通过投影法分割开来,得到单个字符的最小外接矩形,便于后续的识别处理;
S4、字符区域分块:将分割好的字符,进行尺度变换,变为正方形,然后将字符图像的高和宽等间距各分3份,得到9个正方形的图像块;
S5、提取每个图像块的HOG特征,得到9个一维的HOG特征序列;
S6、将步骤S5中的特征序列分别与模板做比对,比对公式如下:
其中,An为待识别字符块的HOG特征序列,为An的均值;Bn为模板字符块HOG特征序列,为Bn的均值;r为待识别字符块与模板字符块的相关系数,当-1≤r<0时,An与Bn为负相关;当0<r≤1时,An与Bn为正相关;当r=0时,An与Bn不相关;其差异系数d用1-r来表示;
S7、将候选字符中的9个块,进行加权求和,根据差异系数d的取值范围,为其赋予不同权重,生成权重矩阵,其权重分配方式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710073714.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种纸币的鉴别方法及装置
- 下一篇:存取款方法及系统