[发明专利]一种购物票据识别结果纠错方法在审

专利信息
申请号: 202010750817.6 申请日: 2020-07-30
公开(公告)号: CN111967246A 公开(公告)日: 2020-11-20
发明(设计)人: 林红利;田露;王伟胜;张健林;何忠义 申请(专利权)人: 湖南大学
主分类号: G06F40/232 分类号: G06F40/232;G06F40/284;G06K9/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 410082 湖南省*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 购物 票据 识别 结果 纠错 方法
【说明书】:

发明涉及文字识别结果的纠错,具体涉及通过购物票据内容存在特定规则的特点,利用编辑距离、规则定义和购物票据专用词典实现一种购物票据识别结果的纠错方法。该方法的步骤为:首先购物票据图像经过OCR获得初始的识别结果;构建购物票据领域的词典,包括购物票据项目名称专用词典、易错字字典、规则库、商品编码词典和文字点阵字典;根据编辑距离确定错误词语,并从项目名称专用词典中筛选纠错候选项,利用文本串相似性度量确定最终候选项;根据易错字字典和规则库纠正错误词语,再利用商品编码库纠正商品名称和规格;输出纠错后的识别结果。其系统流程如图1所示。该方法能够实现购物票据项目的纠错,提高了购物票据识别的准确率。

技术领域

本发明涉及文字纠错,特别涉及文本识别结果的纠错。具体涉及通过购物票据内容存在特定规则的特点,利用编辑距离、规则定义和购物票据专用词典实现一种购物票据识别结果的纠错方法。

背景技术

购物票据,如超市购物小票、购物发票、电商平台上的电子发票,记录了顾客的购买行为,包括顾客的购买时间、购买地点、购买商品、商品价格、顾客支付方式等信息,购物票据示例如图1所示。购物票据是分析顾客购买行为、购物偏好的数据基础,购物票据的信息是制定营销策略的重要依据;同时,购物票据也是供应商开展营销活动的主要数据来源,如根据购物商品的品类、价格和时间开展返现活动等。

随着互联网的发展,视频和图像成为人们传递信息的主要手段,在商品营销领域,购物票据的获取也是如此。如目前常用的商品营销方式:顾客使用手机拍照,上传购物票据到供应商营销服务器,后台人员人工审核,查看票据符合返现等营销活动后,通过微信红包等电子支付方式返现。为加快票据审核效率,节省人力成本,从图像和视频中提取文字信息的OCR技术被应用于购物票据处理中,以提高审核效率。同时,供应商可以积累大量的购票票据识别结果,分析顾客的购物信息,挖掘顾客的购物行为,为制定营销策略提供依据。

购物票据识别往往会因为票据本身的问题,如折叠产生的褶皱,拍照时的光照、角度、噪声、扭斜等因素的影响,导致识别结果与真实结果存在偏差,识别准确率降低。因此购物票据识别结果纠错,对提高购物票据识别准确率有重要作用。

利用语言文字的统计规律可以改进OCR(Optical Character Recognition,光学字符识别) 结果,实现对OCR结果纠错。查字典法是一种常用的文字纠错方法。该方法通过创建字典,检查输出字符串是否出现在字典中,如果出现在字典中为正确词语,否则认为是识别错误的词语,从而达到纠错的目的。查字典法具有普适性、易于理解的优点,但该方法只能输出词语的正确与错误,无法量化地表示两词语之间差异性。基于语言文字统计模型的 N-Gram算法也是目前自然语言领域常用的拼写错误检查的方法。N-Gram基于马尔可夫模型,根据文本中连续出现的N个词语出现的概率,推断语句的结构,进而计算一个句子的概率。N-Gram算法对文档或句子的拼写检查或纠错具有很好的作用,但购物票据记录的购物信息主要由词语、数字、编码等组成,和传统的文档有较大不同,而且购物票据中出现的词语普遍是专用词语,利用现有的N-Gram算法、传统的查字典方法都无法解决面向购物票据这一OCR垂直领域的识别纠错。

为此,亟需面向购物票据识别垂直领域研发针对性的识别结果纠错方法。

发明内容

本发明针对目前对购物票据识别结果纠错的迫切性,利用编辑距离,查字典纠错法,结合购物票据数据特点制定规则,对购物票据识别结果进行纠错,提高购物票据识别的准确率。一方面有助于提高票据审核的效率,另一方面为购物篮数据挖掘提供数据基础。本发明提供了一种购物票据识别结果纠错算法,所叙述方法步骤如图2,包括:

1.技术方案

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010750817.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top