[发明专利]一种用于快递领域票据识别文本纠错方法在审

申请号：	202111207447.2	申请日：	2021-10-15
公开（公告）号：	CN113903048A	公开（公告）日：	2022-01-07
发明（设计）人：	薛鹏;于红建;邸岩兴	申请（专利权）人：	北京同城必应科技有限公司
主分类号：	G06V30/414	分类号：	G06V30/414;G06V30/416;G06V10/22;G06V10/764;G06F40/211;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	100085 北京市海淀区永泰***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于快递领域票据识别文本纠错方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

文字识别是利用OCR技术将图片上的文字智能识别成可编辑的文字，可极大提高信息处理的效率。由于复杂的背景、各种字体、成像条件(图像拍摄光线、角度等)，经常存在文字识别错误的问题。识别错误会逐级传递放大，并累积至后续链路。因此，有必要对OCR之后的文字进行进一步纠错处理。本专利针对快递领域票据识别场景，提出了一种文本纠错处理方法。采用基于字形混合语言模型进行错误检测，然后替换错原句子中错误字符，通过计算句子得分获取纠正后的句子。该方法在实际应用中能获取较高的准确率和误纠率。从而提升后续NLP任务的性能，提升用户体验。

技术领域

本发明发明属于自然语言处理邻域，尤其涉及到一种快递领域票据文字识别后文本纠错方法。

背景技术

快递领域票据识别是利用OCR技术将图片上的文字智能识别成可编辑的文字，可极大提高信息处理的效率。现阶段OCR技术已经比较成熟，由于复杂的背景、各种字体、成像条件(图像拍摄光线、角度等)，经常存在文字识别错误的问题。识别错误会逐级传递放大，并累积至后续链路。因此，有必要对OCR之后的文字进行进一步纠错处理。中文纠错系统主要有基于pipeline串联和联合模型两种方法。前者把系统分为检错和纠错环节，每个模型解决具体的特定问题，然后串联起来得到最后结果。此方法便于问题分析，能够针对各个问题进行重点突破，但也存在错误级联传递的问题。第二种方法采用端到端联合学习的方式，单个模型就能完成纠错任务。但在真实应用环境中，经常存在语料缺失，标注成本高，训练代价大的问题。本专利针对快递领域票据识别场景，提出了一种文本纠错处理方法。采用基于字形混合语言模型进行错误检测，然后替换错原句子中错误字符，通过计算句子得分获取纠正后的句子。该方法在实际应用中能获取较高的准确率和误纠率。

发明内容

本发明提供的一种多轮对话系统的指代消解方法，包括以下步骤：

Step1：输入OCR识别字符置信度和每个字词的n-gram检测概率值做加权，求得概率，根据阈值进行检错。

Step2：利用领域语料进行候选集构建和字向量训练，获得字形相似度候选集和字向量。

Step3：根据错误字候选集，对候选字做句子流畅度检测和词向量距离计算，获得新句子的得分。

Step4：重复步骤Step3，使句子得分最大的替换结果作为最终结果，纠错完成。

进一步，步骤Step1中，根据如下方法进行错误字符检测：

检错部分我们采用OCR识别的置信度，即预测是哪个汉字时softmax输出的概率值，我们只处理置信度低的字符，即汉字的置信度越低，错误的概率越大。除此之外，我们还利用n-gram信息进行检错。利用两部分的加权我们获得字符的最终出错的概率。我们用加权值P_char来衡量，如下：

P_char＝α*P_ocr+β*P_gram

其中P_char为文字识别模型中softmax输出的概率值，P_gram为n-gram检测概率值。理论上使用神经网络训练出的语言模型效果将会更好一些，但是考虑训练效率成本等因素，我们选择使用n-gram模型。α，β为权重，且二者加和为1。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载