[发明专利]票据的金额识别方法、装置、计算机设备及存储介质在审
申请号: | 202110694971.0 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113408536A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 郭喜亚 | 申请(专利权)人: | 平安健康保险股份有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34 |
代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 程超 |
地址: | 200030 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 票据 金额 识别 方法 装置 计算机 设备 存储 介质 | ||
1.一种票据的金额识别方法,其特征在于,包括以下步骤:
通过文字识别算法对票据进行识别,以获得与一个或多个切片相对应的识别文本;
从所述识别文本中提取大写数字字符和单位字符;
计算所述大写数字字符和所述单位字符对应的大写金额数值;
从所述识别文本中提取小写金额字符并确定小写金额数值;
对所述大写金额数值和所述小写金额数值进行核验;
根据核验结果提取所述票据的金额。
2.根据权利要求1所述的票据的金额识别方法,其特征在于,所述从所述识别文本中提取大写数字字符和单位字符的步骤包括:
根据首尾字符特性对所述识别文本进行截断;
构造正则匹配项对截断后的所述识别文本进行字符提取,所述正则匹配项包括预设的多个候选大写数字字符以及多个候选单位字符;
对提取到的大写数字字符或单位字符进行纠错。
3.根据权利要求2所述的票据的金额识别方法,其特征在于,所述对提取到的大写数字字符或单位字符进行纠错的步骤包括以下任一种:
基于形近字字典对所述大写数字字符或单位字符中的形近字进行纠错;
基于规则库对所述大写数字字符或单位字符进行纠错,所述规则库包括大写金额与单位之间的结构顺序关系;
根据单位由大到小排列的顺序对所述单位字符进行纠错;
根据四角编码和FASPell编码对所述大写数字字符或单位字符进行评分并纠错;其中评分公式为:
S=Scode+0.5*Sstructure+0.25*Swrite
上式中,S为候选集字符的总得分;Scode为错误识别字符与候选字符四码匹配位数;Sstructure为结构比较系数;Swrite为笔画相似性系数;
根据数字和单位之间的结构关系对重复或缺失的单位字符进行纠错;
根据首尾字符对不完整的所述识别文本进行扩展。
4.根据权利要求1-3中任一项所述的票据的金额识别方法,其特征在于,所述计算所述和所述单位字符对应的大写金额数值的步骤包括:
为每个所述和所述单位字符赋予对应的属性和数值,所述属性包括数字属性和单位属性;
将所述和所述单位字符根据对应的属性和数值生成包含多个元素的数列;
根据所述数列计算大写金额数值;计算公式如下:
其中,C表示所述数列中的元素,len(C)表示所述数列的长度。
5.根据权利要求1所述的票据的金额识别方法,其特征在于,所述从所述识别文本中提取小写金额字符并确定小写金额数值的步骤包括:
基于前缀字符或位置信息提取所述小写金额字符;
将所述小写金额字符转化为小写金额数值;
根据所述单位字符对所述小写金额数值进行校验。
6.根据权利要求5所述的票据的金额识别方法,其特征在于,所述根据所述单位字符对所述小写金额字符进行校验的步骤包括:
在所述票据为免税增值税发票的情况下,若包含两个同样的小写金额数值,确定所述两个同样的小写金额数值正确;
在所述票据为非免税增值税发票的情况下,若包含三个小写金额数值且其中两个小写数值金额的和等于第三个小写金额数值,确定所述三个小写金额数值正确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安健康保险股份有限公司,未经平安健康保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110694971.0/1.html,转载请声明来源钻瓜专利网。