[发明专利]一种用于快递领域票据识别文本纠错方法在审

专利信息
申请号: 202111207447.2 申请日: 2021-10-15
公开(公告)号: CN113903048A 公开(公告)日: 2022-01-07
发明(设计)人: 薛鹏;于红建;邸岩兴 申请(专利权)人: 北京同城必应科技有限公司
主分类号: G06V30/414 分类号: G06V30/414;G06V30/416;G06V10/22;G06V10/764;G06F40/211;G06N3/04;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 100085 北京市海淀区永泰*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 快递 领域 票据 识别 文本 纠错 方法
【说明书】:

文字识别是利用OCR技术将图片上的文字智能识别成可编辑的文字,可极大提高信息处理的效率。由于复杂的背景、各种字体、成像条件(图像拍摄光线、角度等),经常存在文字识别错误的问题。识别错误会逐级传递放大,并累积至后续链路。因此,有必要对OCR之后的文字进行进一步纠错处理。本专利针对快递领域票据识别场景,提出了一种文本纠错处理方法。采用基于字形混合语言模型进行错误检测,然后替换错原句子中错误字符,通过计算句子得分获取纠正后的句子。该方法在实际应用中能获取较高的准确率和误纠率。从而提升后续NLP任务的性能,提升用户体验。

技术领域

本发明发明属于自然语言处理邻域,尤其涉及到一种快递领域票据文字识别后文本纠错方法。

背景技术

快递领域票据识别是利用OCR技术将图片上的文字智能识别成可编辑的文字,可极大提高信息处理的效率。现阶段OCR技术已经比较成熟,由于复杂的背景、各种字体、成像条件(图像拍摄光线、角度等),经常存在文字识别错误的问题。识别错误会逐级传递放大,并累积至后续链路。因此,有必要对OCR之后的文字进行进一步纠错处理。中文纠错系统主要有基于pipeline串联和联合模型两种方法。前者把系统分为检错和纠错环节,每个模型解决具体的特定问题,然后串联起来得到最后结果。此方法便于问题分析,能够针对各个问题进行重点突破,但也存在错误级联传递的问题。第二种方法采用端到端联合学习的方式,单个模型就能完成纠错任务。但在真实应用环境中,经常存在语料缺失,标注成本高,训练代价大的问题。本专利针对快递领域票据识别场景,提出了一种文本纠错处理方法。采用基于字形混合语言模型进行错误检测,然后替换错原句子中错误字符,通过计算句子得分获取纠正后的句子。该方法在实际应用中能获取较高的准确率和误纠率。

发明内容

本发明提供的一种多轮对话系统的指代消解方法,包括以下步骤:

Step1:输入OCR识别字符置信度和每个字词的n-gram检测概率值做加权,求得概率,根据阈值进行检错。

Step2:利用领域语料进行候选集构建和字向量训练,获得字形相似度候选集和字向量。

Step3:根据错误字候选集,对候选字做句子流畅度检测和词向量距离计算,获得新句子的得分。

Step4:重复步骤Step3,使句子得分最大的替换结果作为最终结果,纠错完成。

进一步,步骤Step1中,根据如下方法进行错误字符检测:

检错部分我们采用OCR识别的置信度,即预测是哪个汉字时softmax输出的概率值,我们只处理置信度低的字符,即汉字的置信度越低,错误的概率越大。除此之外,我们还利用n-gram信息进行检错。利用两部分的加权我们获得字符的最终出错的概率。我们用加权值Pchar来衡量,如下:

Pchar=α*Pocr+β*Pgram

其中Pchar为文字识别模型中softmax输出的概率值,Pgram为n-gram检测概率值。理论上使用神经网络训练出的语言模型效果将会更好一些,但是考虑训练效率成本等因素,我们选择使用n-gram模型。α,β为权重,且二者加和为1。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京同城必应科技有限公司,未经北京同城必应科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111207447.2/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top