[发明专利]一种文字识别方法、系统、设备、计算机可读存储介质有效
| 申请号: | 201710945021.4 | 申请日: | 2017-09-30 |
| 公开(公告)号: | CN109598265B | 公开(公告)日: | 2021-09-28 |
| 发明(设计)人: | 王志成;王宇;高磊;邝展豪;王亮;刘志欣 | 申请(专利权)人: | 顺丰科技有限公司 |
| 主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62;G06K9/72 |
| 代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 赵奕 |
| 地址: | 518061 广东省深圳市南山区学府路(以南)*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文字 识别 方法 系统 设备 计算机 可读 存储 介质 | ||
本发明涉及一种文字识别方法、系统、设备、计算机可读存储介质。该文字识别方法,包括:获取待识别信息图片;对待识别信息图片进行文字识别;对文字识别的结果进行纠偏,得到最终识别结果。通过综合运用文字识别和朴素贝叶斯算法,大大提升文字识别的准确度。本发明的文字识别方法,待识别信息图片为运单图片,通过运单图片识别结果获取匹配通讯信息;根据该信息筛选出与其相对应的联系人信息,得到联系人信息可选集合。根据概率值对可选集合中个体进行筛选,获取最终识别结果,该纠偏结果不仅可以准确识别原始订单数据,还可以对联系人信息纠错补全,经该朴素贝叶斯的关系数据纠偏算法后,手写运单的识别准确度得到了极大的提高。
技术领域
本发明属于文字识别领域,尤其涉及一种文字识别方法、系统、设备、计算机可读存储介质。
背景技术
近年来,随着机器学习的迅猛发展,各种光学字符识别算法层出不穷。OCR识别文字算法是一种常用的光学字符识别算法,但是OCR识别文字算法精度受图像光照、角度等影响,若识别对象没有模糊、飞白、噪声等的理想状态,则识别精度高,否则则识别精度下降,无法达到使用者的期望。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种文字识别方法、系统、设备、计算机可读存储介质。
根据本发明的一个方面,提供了一种文字识别方法,包括以下步骤:
获取待识别信息图片;
对待识别信息图片进行文字识别;
对文字识别的结果进行纠偏,得到最终识别结果。
进一步的,对文字识别的结果进行纠偏,包括:
根据文字识别结果中的匹配识别信息从数据库中筛选出与该匹配识别信息相对应的目标识别信息的可选集合;
基于该可选集合的概率分布筛选出该可选集合中概率值超过阈值的个体,即为最终识别结果。
进一步的,筛选出该可选集合中概率值超过阈值的个体之前,包括:
通过朴素贝叶斯的关系数据纠偏算法获取所述可选集合的概率分布。
进一步的,待识别信息图片为运单图片。
进一步的,根据文字识别结果中的匹配识别信息从数据库中筛选出与该匹配识别信息相对应的目标识别信息的可选集合,包括:
基于运单图片文字识别的结果获取联系人匹配通讯信息;
根据该匹配通讯信息从数据库中筛选出与其相对应的联系人信息,得到联系人信息可选集合。
进一步的,筛选出该可选集合中概率值超过阈值的个体,包括:
根据联系人信息可选集合计算概率值;
根据概率值对联系人信息可选集合中个体进行筛选,获取最终识别结果。
具体的,筛选出该可选集合中概率值超过阈值的个体,包括:
将联系人信息可选集合输入下述公式计算概率值Pr(Ccandidate),
计算公式为:
其中,Ccandidate为联系人信息,confidencei是文字识别OCR针对每个结果给出的可信度;n为COCR的数目;
根据Pr(Ccandidate)值对联系人信息可选集合中个体进行筛选,获取最终识别结果。
概率值计算公式,即概率值Pr(Ccandidate)计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于顺丰科技有限公司,未经顺丰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710945021.4/2.html,转载请声明来源钻瓜专利网。





