[发明专利]一种文字识别方法及装置有效

专利信息
申请号: 201410156083.3 申请日: 2014-04-17
公开(公告)号: CN105095826B 公开(公告)日: 2019-10-01
发明(设计)人: 张宇;杜志军 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/20
代理公司: 北京晋德允升知识产权代理有限公司 11623 代理人: 杨移
地址: 英属开曼群岛大开*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文字 识别 方法 装置
【说明书】:

本申请公开了一种文字识别方法及装置,用以解决现有技术在特殊应用场景中识别文字的精度较低的问题。该方法确定待识别文字的备选文字,并针对每个备选文字,采用特殊校正模型确定该待识别文字是该备选文字的特殊后验概率,再根据每个备选文字的特殊后验概率识别该待识别文字。由于上述特殊校正模型是预先根据统计的出现在特殊应用场景中的词汇的词频得到的,因此采用特殊校正模型可以准确的识别出符合特殊应用场景的文字,从而可以提高在特殊应用场景中识别文字的精度。

技术领域

本申请涉及计算机技术领域,尤其涉及一种文字识别方法及装置。

背景技术

随着计算机技术的发展,文字识别技术应运而生,通过这种技术,设备可以将图像中的文字识别出来,将文字识别技术应用于非数字化信息的录入就可以显著提高非数字化信息的录入效率。一般方法是,采集非数字化信息的图像,再利用文字识别技术识别图像中的文字,以获得信息并录入。显然,采用文字识别技术对非数字化信息进行录入时,文字识别的精度是决定录入信息的准确性的一个重要因素。

其中,利用文字识别技术识别图像中的文字的核心思想主要是:将图像中待识别文字输入光学字符识别(Optical Character Recognition,OCR)引擎,OCR引擎提取输入的待识别文字的特征,并将提取的特征与预先保存在模板库中的每个标准文字的特征进行比对,以确定提取的特征与每个标准文字的特征的相似度,将相似度最高的标准文字确定为该待识别文字。

然而,在实际应用场景中,存在着诸多特征较为相似的文字,如“区”和“凶”,“剁”和“刹”等。受采集图像的清晰度、倾斜度等影响,这些特征较为相似的文字往往会存在误识别的情况。例如,本应为“地址:朝阳区”的文字,很有可能会由于图像倾斜度的影响而被误识别为“地址:朝阳凶”。因此,为了提高文字识别的精度,在现有技术中,可根据与待识别文字的特征的相似度较高的若干个标准文字,结合预设的校正模型,对待识别文字进行识别。

具体的,针对文字行中的第i个待识别文字,确定该第i个待识别文字的备选文字,针对确定的每个备选文字,根据已识别出的第i-1个文字(第i-1个文字是该第i个文字的前一个文字)以及预设的校正模型,确定在该第i-1个文字的条件下,该第i个待识别文字是该备选文字的后验概率,将后验概率最大的备选文字确定为识别出的该第i个待识别文字。

例如,假设从图像中提取出的文字行中的实际文字是“朝阳区”,则在对该文字行中的这三个字进行识别时,可按照从左到右的顺序依次进行识别。假设前两个字(“朝”和“阳”)识别出来后,在对第3个字进行识别时,可根据该第3个字的特征,确定与该第3个字的特征的相似度较大的标准文字为“区”和“凶”,因此,将“区”和“凶”这两个字作为第3个字的备选文字。由于识别出的第2个字是“阳”,则可根据已识别出的第2个字“阳”,以及预设的校正模型,分别确定P(c3,区|c2,阳)和P(c3,凶|c2,阳),其中,P(c3,区|c2,阳)表示在第2个字是“阳”的条件下,第3个字是“区”的后验概率,P(c3,凶|c2,阳)表示在第2个字是“阳”的条件下,第3个字是“凶”的后验概率。假设根据校正模型,确定P(c3,区|c2,阳)大于P(c3,凶|c2,阳),则将备选文字“区”确定为识别出的该第3个字。

但是,在现有技术中,上述预设的校正模型是对出现在实际生活中的各种词汇的词频进行统计得到的,对于一个词汇而言,该词汇在实际生活中出现的词频越高,则在该词汇中前一个字的条件下,该词汇中后一个字的后验概率越大,上述预设的校正模型也可称之为通用校正模型。而对于某些特殊的应用场景而言,上述通用校正模型并不适用。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410156083.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top