[发明专利]一种购物票据识别结果纠错方法在审
| 申请号: | 202010750817.6 | 申请日: | 2020-07-30 |
| 公开(公告)号: | CN111967246A | 公开(公告)日: | 2020-11-20 |
| 发明(设计)人: | 林红利;田露;王伟胜;张健林;何忠义 | 申请(专利权)人: | 湖南大学 |
| 主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/284;G06K9/00 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 购物 票据 识别 结果 纠错 方法 | ||
1.一种购物票据识别结果纠错方法,其特征在于,该方法的实施步骤为:
(1)购物票据图像经过ocr获得初始的识别结果;
(2)构建购物票据领域的词典,包括购物票据项目名称专用词典、易错字字典、规则库、商品编码词典、和文字点阵字典;
(3)根据编辑距离确定错误词语,并筛选纠错候选项,根据文字相似性度量确定最终候选项;
(4)根据易错字字典和规则库纠正错误词语,再利用商品编码库纠错商品名称和规格;
(5)将所述纠错结果与所述错误文字进行替换,输出纠错后的识别结果。
2.根据权利要求1所述的购物票据识别结果纠错方法,其特征在于,该方法在词典构建阶段要构建购物票据项目名称专用词典、易错字字典、规则库、商品编码词典、和文字点阵字典的数据:
(1)购物票据项目名称专用词典,作为候选词语词典;
(2)易错字字典,用来纠正错误识别的文字,包括英文字符、数字、标点符号;
(3)规则库,纠正非中文内容,包括金额、时间、数量;
(4)商品编码词典,利用商品编码库实现商品名称和规格的纠错;
(5)文字点阵字典,作为文字相似性度量方法的依据。
3.根据权利要求1所述的确定最终候选项,其特征在于,先使用编辑距离算法筛选纠错候选项,再根据文字相似性度量算法得到最终候选项,具体步骤为:
(1)采用编辑距离算法,度量识别结果中的词语和票据专用词典中词语得的距离,选择编辑距离最小的词语作为纠错的候选词语项;
(2)采用文字相似性度量算法,从候选集中选择文字相似性最大的候选项最为最终候选项。
4.根据权利要求1或3所述的文字相似性度量方法,其特征在于,将文字用固定大小的点阵表示,以一个文字点阵图像作为图像分割的“金标准”,一个为该文字点阵图像的分割结果,通过计算分割结果和“金标准”的一致性来度量两个文字的相似程度。图像分割一致性采用交并比来计算,即
5.根据权利要求1所述的根据易错字字典和规则库纠正错误词语,其特征在于,针对数字、英文字符和标点符号容易混淆的情况,根据易错字字典和规则库,对票据中的非中文部分包括金额、时间、数量的内容纠错。
6.根据权利要求1所述的利用商品编码库纠错商品名称和规格,其特征在于,商品编码词典中每个项由商品编码、商品名称、商品规格组成,商品编码和商品名称、规格一一对应。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010750817.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效型农副产品粉碎设备
- 下一篇:钒钛磁铁矿还原熔炼的方法及装置





