[发明专利]一种用于快递领域票据识别文本纠错方法在审
| 申请号: | 202111207447.2 | 申请日: | 2021-10-15 |
| 公开(公告)号: | CN113903048A | 公开(公告)日: | 2022-01-07 |
| 发明(设计)人: | 薛鹏;于红建;邸岩兴 | 申请(专利权)人: | 北京同城必应科技有限公司 |
| 主分类号: | G06V30/414 | 分类号: | G06V30/414;G06V30/416;G06V10/22;G06V10/764;G06F40/211;G06N3/04;G06N3/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100085 北京市海淀区永泰*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用于 快递 领域 票据 识别 文本 纠错 方法 | ||
1.一种用于快递领域票据识别文本纠错方法,其特征在于包括以下步骤:
Step1:输入OCR识别字符置信度和每个字词的n-gram检测概率值做加权,求得概率,根据阈值进行检错。
Step2:利用领域语料进行候选集构建和字向量训练,获得字形相似度候选集和字向量。
Step3:根据错误字候选集,对候选字做句子流畅度检测和词向量距离计算,获得新句子的得分。
Step4:重复步骤Step3,使句子得分最大的替换结果作为最终结果,纠错完成。
2.根据权利要求1所述用于快递领域票据识别文本纠错方法,其特征在于:
检错部分我们采用OCR识别的置信度,即预测是哪个汉字时softmax输出的概率值,我们只处理置信度低的字符,即汉字的置信度越低,错误的概率越大。除此之外,我们还利用n-gram信息进行检错。利用两部分的加权我们获得字符的最终出错的概率。我们用加权值Pchar来衡量,如下:
Pchar=α*Pocr+β*Pgram
其中Pchar为文字识别模型中softmax输出的概率值,Pgram为n-gram检测概率值。理论上使用神经网络训练出的语言模型效果将会更好一些,但是考虑训练效率成本等因素,我们选择使用n-gram模型。α,β为权重,且二者加和为1。
对文本字符串按字符进行切分,切分结果保存为word_list。获取字符char左3-gram字符串(left 3-gram string,l3gs),即target_text中位于字符char左边且紧挨着字符的长度为3的字符串,并判断l3gs是否包含在字符char的l3gs列表(记为list_l3gs)中。如果包含,则字符char的l3gs的匹配状态(记为state_l3gs)为ture,否则为false。接着,获取字符char右3-gram字符串(right 3-gram string,r3gs),即target_text中位于字符char右边且紧挨word的长度为3的字符串,并判断r3gs是否包含在字符char的r3gs列表(记为list_r3gs)中。如果包含,则字符char的r3gs的匹配状态(记为state_r3gs)为ture,否则为false。如果字符char的l3gs的匹配状态state_l3gs和r3gs的匹配状态state_r3gs均为false,则字符char被判定为异常词Pgram值记为1,反之则为0。
当Pchar小于阈值T时,我们认为该字符出现错误。T为人工设定值。
3.根据权利要求1所述用于快递领域票据识别文本纠错方法,其特征在于:
我们采用机器加人工的方式构建垂直领域候选集。候选集包括形似字候选集和组合字候选集。OCR识别错误通常为字形错误,其中包括单字错误和组合体错误。单字错误表现为单个汉字误识别为单个错误汉字。组合体错误表现为单个汉字识别为多个汉字或多个汉字识别为一个汉字。这里的组合主要为左右组合,如”圳“可以拆分为”土“和”川“的组合,或者二者形近字的组合。“日”“月”可以被误识别成“明”字。上下组合类型在本文中暂不考虑。
候选集构建,我们考虑偏旁部首、汉字结构、笔画数、全码表等特征,其映射值分别为v1,v2,v3,v4,进而获得每汉字的特征向量[v1,v2,v3,v4],通过两两计算获得汉字之间的相似度,然后排序取top10,经过人工校正,最终获取每个汉字的形似字候选集D1。对于左右组合字,我们选定基础部件,采用全自动随机组合的方式进行检索,获得左右组合可替换候选集D2。
4.根据权利要求1所述用于快递领域票据识别文本纠错方法,其特征在于:
句子合理度我们用得分Score_sen来计算,如下公式所示:
Score_sen=Score_ngram+Score_vector
其中,Score_ngram为错字进行候选字替换后句子的流畅度。句子流畅度检测是扫描整个句子,计算每个字/词的概率,然后概率做乘积运算。由于字词概率都会远小于1,导致乘起来后值过小,一般语言模型都会采用log概率,即计算出概率后再对其取对数,将乘出来的数称为句子流畅度。
通过领域语料训练获得字向量,Score_vector为候选字符与文本字符串之间的语义距离,其为候选字符向量与上下文向量的余弦相似度。
假设待纠错文本由n个字符组成,第i个字的字向量用表示,则待纠错文本的句向量表示为候选字向量用vj表示,则候选字的向量表示为Vcdt,则待纠错文本与候选字之间的语义相似度为Vsen*Vcdt/(|Vsen|*|Vcdt|):
Score_vector=Vsen*Vcdt/(|Vsen|*|Vcdt|)
最终选取能使Score_sen值最大的字符作为最终的替换字符。其中,替换包括单字替换和组合字替换,单字替换直接将错误字符替换为候选字符,组合替换将左右组合的双字替换为单字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京同城必应科技有限公司,未经北京同城必应科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111207447.2/1.html,转载请声明来源钻瓜专利网。





