[发明专利]一种购物票据识别结果纠错方法在审

专利信息
申请号: 202010750817.6 申请日: 2020-07-30
公开(公告)号: CN111967246A 公开(公告)日: 2020-11-20
发明(设计)人: 林红利;田露;王伟胜;张健林;何忠义 申请(专利权)人: 湖南大学
主分类号: G06F40/232 分类号: G06F40/232;G06F40/284;G06K9/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 410082 湖南省*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 购物 票据 识别 结果 纠错 方法
【权利要求书】:

1.一种购物票据识别结果纠错方法,其特征在于,该方法的实施步骤为:

(1)购物票据图像经过ocr获得初始的识别结果;

(2)构建购物票据领域的词典,包括购物票据项目名称专用词典、易错字字典、规则库、商品编码词典、和文字点阵字典;

(3)根据编辑距离确定错误词语,并筛选纠错候选项,根据文字相似性度量确定最终候选项;

(4)根据易错字字典和规则库纠正错误词语,再利用商品编码库纠错商品名称和规格;

(5)将所述纠错结果与所述错误文字进行替换,输出纠错后的识别结果。

2.根据权利要求1所述的购物票据识别结果纠错方法,其特征在于,该方法在词典构建阶段要构建购物票据项目名称专用词典、易错字字典、规则库、商品编码词典、和文字点阵字典的数据:

(1)购物票据项目名称专用词典,作为候选词语词典;

(2)易错字字典,用来纠正错误识别的文字,包括英文字符、数字、标点符号;

(3)规则库,纠正非中文内容,包括金额、时间、数量;

(4)商品编码词典,利用商品编码库实现商品名称和规格的纠错;

(5)文字点阵字典,作为文字相似性度量方法的依据。

3.根据权利要求1所述的确定最终候选项,其特征在于,先使用编辑距离算法筛选纠错候选项,再根据文字相似性度量算法得到最终候选项,具体步骤为:

(1)采用编辑距离算法,度量识别结果中的词语和票据专用词典中词语得的距离,选择编辑距离最小的词语作为纠错的候选词语项;

(2)采用文字相似性度量算法,从候选集中选择文字相似性最大的候选项最为最终候选项。

4.根据权利要求1或3所述的文字相似性度量方法,其特征在于,将文字用固定大小的点阵表示,以一个文字点阵图像作为图像分割的“金标准”,一个为该文字点阵图像的分割结果,通过计算分割结果和“金标准”的一致性来度量两个文字的相似程度。图像分割一致性采用交并比来计算,即

5.根据权利要求1所述的根据易错字字典和规则库纠正错误词语,其特征在于,针对数字、英文字符和标点符号容易混淆的情况,根据易错字字典和规则库,对票据中的非中文部分包括金额、时间、数量的内容纠错。

6.根据权利要求1所述的利用商品编码库纠错商品名称和规格,其特征在于,商品编码词典中每个项由商品编码、商品名称、商品规格组成,商品编码和商品名称、规格一一对应。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010750817.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top