[发明专利]一种自动化发票验真方法及系统有效
申请号: | 201810375901.7 | 申请日: | 2018-04-25 |
公开(公告)号: | CN108734849B | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 郝双 | 申请(专利权)人: | 新浪网技术(中国)有限公司 |
主分类号: | G07D7/20 | 分类号: | G07D7/20 |
代理公司: | 北京卓岚智财知识产权代理事务所(特殊普通合伙) 11624 | 代理人: | 任漱晨 |
地址: | 100193 北京市海淀区东北旺西路中关村*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动化 发票 方法 系统 | ||
本发明实施例提供一种自动化发票验真方法及系统,包括获取待验证发票的原始图像;提取原始图像上具有固定位置的特定标识的参数信息;根据参数信息,对原始图像进行粗分割,得到右上子图和右下子图;通过版面分析,得到发票四要素的区域坐标;根据区域坐标,从原始图像上截取四要素子图;调用OCR引擎,通过OCR引擎分别对四要素子图进行光学字符识别,得到四要素信息;将四要素信息发送至税务接口,对所述待验证发票进行真假验证。本发明通过以原始图像上具有固定位置的特定标识为基准,可准确确定四要素子图;进而通过OCR引擎分别对四要素子图进行OCR识别,从而可得到对应的四要素信息,则识别信息与类型匹配,进而可验证待验证发票的真假。
技术领域
本发明涉及发票识别技术领域,特别是涉及一种自动化发票验真方法及系统。
背景技术
在财务人员进行财务报销的过程中,发票验真是一项重要环节,通过发票验真,可以有效识别真假发票,避免因假发票造成财务损失。对于发票验真,需要向税务机构提供“发票代码”,“发票号码”,“税前金额”,“开票日期”这4个要素内容(以下简称四要素),这4项内容在发票票面上均有提供。
原始的验真方法就是财务人员手动输入相应的内容到税务机构提供的验真接口(简称税务接口)中进行核验,这种方法效率低,手工输入容易出错,耗时费力,随着国家三网合一政策的推进,很难满足当前大量发票的验真需求。
为了解决手动输入效率低的问题,有的技术人员提出了对票面进行OCR(OpticalCharacter Recognition,光学字符识别)方法代替人工输入,但是仅通过OCR技术并不能很好的解决发票验真的实际问题。
发票的票面上,最多的是数字信息,比如图2所示,左上角的“1100172320”,应用OCR技术只能知道数字是什么,但是无法判定该数字究竟是发票代码还是发票号码。另外,观察票面,还可以发现,除了四要素之外还有其他位置也有文字/数字信息,使用哪些信息,不使用哪些信息也是仅靠OCR解析无法做到的。
现有技术对发票进行全票面OCR识别,识别结果以文字串形式给出,只有识别内容,没有该内容对应的位置信息,导致无法判定识别结果属于什么类别(是发票代码还是发票号码?是开票日期还是其他项目?)。如“3571”这4个数字,既有可能是发票号码,也有可能是税前金额。
如果只有识别结果,但是无法判定该结果属于什么内容的话,则不能将识别结果按照正确的应有类别输入给税务接口。
如果仍然希望能够将识别结果按照其正确的应有类别提供给税务接口,则需要引入人工比对工作。引入人工则带来一个新的问题,就是人工比对效率不能像机器一样始终保持高效稳定,受人工主观因素影响较大,并且人力成本也是不可忽视的一项开销。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
现有的OCR技术无法准确确定识别信息的类型,类型的确定需要人工干预,导致验证效率比较低。
发明内容
本发明实施例提供一种自动化发票验真方法及系统,可准确确定待验证发票上的四要素信息。
一方面,本发明实施例提供了一种自动化发票验真方法,包括:
一种自动化发票验真方法,包括:
获取待验证发票的原始图像;
提取所述原始图像上具有固定位置的特定标识的参数信息;所述特定标识的参数信息包括所述特定标识的位置边界点坐标、宽度及高度;
根据所述特定标识的参数信息,对所述原始图像进行粗分割,得到右上子图和右下子图;所述右上子图上的图片信息包括发票代码、发票号码及开票日期,所述右下子图上的图片信息包括税前金额;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810375901.7/2.html,转载请声明来源钻瓜专利网。