[发明专利]一种增值税发票中发票代码识别后处理方法有效
申请号: | 202010436730.1 | 申请日: | 2020-05-21 |
公开(公告)号: | CN111768565B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 程功勋;刘鹏鹏;谢伟;邹驰;王瑛 | 申请(专利权)人: | 程功勋;刘鹏鹏;谢伟;邹驰;王瑛 |
主分类号: | G07F17/42 | 分类号: | G07F17/42;G06Q40/00 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 巴晓艳 |
地址: | 330012 江西*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 增值税发票 发票 代码 识别 处理 方法 | ||
本发明提供一种增值税发票中发票代码识别后处理方法,属于计算机视觉领域。该方法包括:采集增值税发票图像,并进行票面信息结构化,获取所有的结构化信息;获取第一字段发票代码和第二字段发票代码,通过比较二者是否相同对第一字段发票代码和/或第二字段发票代码进行校正;完成发票代码识别后处理。通过本发明技术方案给出的方法,发票代码的最终识别率从70%提高到98%,达到了很好的识别效果。
技术领域
本发明属于计算机视觉领域,尤其是一种增值税发票中发票代码识别后处理方法。
背景技术
财务报销是一个公司中所有必不可少的业务,每一个公司的每一个人都有可能需要进行财务报销,特别是业务销售,财务报销更是非常频繁。
增值税发票(增值税专用发票、增值税普通发票)是中国目前公司业务中使用的最多的两种发票,之前发票的电子化一般是人工录入,随着OCR领域技术不断普及,很多行业逐步采用了OCR识别技术代替人工录入,很大程度提高了工作效率。随着OCR识别技术的发展,目前有很多技术可以很好的识别纸质发票上的所有内容,并且结构化出来。OCR识别发票技术被应用于各行各业,比如报销、报税、财务记账、发票真伪查验等等。
但是由于发票一般都是针式打印机套打,还会出现打印打偏、打出界、打不全、打重叠等等情况,如图1,严重影像发票识别率。通过申请人统计,如果识别完成不做任何后处理,发票代码的识别率只有70%左右。
发明内容
为了解决以上问题,本发明提供了一种增值税发票中发票代码识别后处理方法,该方法针对打印打偏、打出界、打不全、打重叠等影响发票识别率的情况供一套行之有效的方法。经分析,在增值税发票上有2个发票代码区域,一个是打印的发票代码,一个是印刷的发票代码,由于发票代码可被用于鉴别发票的真伪,因此本发明技术方案将其作为依据通过发票代码的校验和后处理,可以提高发票代码的识别率。通过本发明技术方案给出的方法,发票代码的最终识别率从70%提高到98%,达到了很好的识别效果。
根据本发明的第一方面,提供一种增值税发票中发票代码识别后处理方法,所述增值税发票包括新版增值税普通发票、旧版增值税普通发票和增值税专用发票,其特征在于,所述方法包括:
步骤1:采集增值税发票图像,并进行票面信息结构化,获取所有的结构化信息;
步骤2:获取第一字段发票代码和第二字段发票代码,通过比较二者是否相同对第一字段发票代码和/或第二字段发票代码进行校正;
步骤3:完成发票代码识别后处理。
进一步的,所述步骤1具体包括:
步骤11:采集一张或者多张增值税发票图像;
步骤12:通过结构化模板对增值税发票图像进行票面信息结构化处理;
步骤13:识别增值税发票图像的所有文字条目,得到所有的增值税发票文字信息;
步骤14:对所有的增值税发票文字信息进行结构化分析,得到所有的结构化信息。
进一步的,所述步骤12具体包括:
针对每种增值税发票版式制定结构化模板;
通过结构化模板对特定版式的增值税发票进行票面信息结构化处理。
进一步的,所述步骤1还包括:将所有的结构化信息转换成用于传输和存储的数据。
进一步的,所述输出模式包括但不限于JSON格式和XML格式;所述数据格式按照企业自定义标准进行格式化输出。
进一步的,所述步骤2具体包括:
步骤21:获取第一字段发票代码和第二字段发票代码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于程功勋;刘鹏鹏;谢伟;邹驰;王瑛,未经程功勋;刘鹏鹏;谢伟;邹驰;王瑛许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010436730.1/2.html,转载请声明来源钻瓜专利网。