[发明专利]一种字符识别的方法、装置、程序和可读存储介质有效
| 申请号: | 200710078767.6 | 申请日: | 2007-02-26 |
| 公开(公告)号: | CN101256631A | 公开(公告)日: | 2008-09-03 |
| 发明(设计)人: | 黄开竹;孙俊;堀田悦伸;藤本克仁;直井聪 | 申请(专利权)人: | 富士通株式会社 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 北京三友知识产权代理有限公司 | 代理人: | 任默闻 |
| 地址: | 日本神奈*** | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 字符 识别 方法 装置 程序 可读 存储 介质 | ||
技术领域
本发明关于模式识别领域,特别关于对变形或轻微异常字符进行识别的技术。具体的讲是一种字符识别的方法、装置、程序和可读存储介质。
背景技术
有很多技术可以用来识别字符。目前被广泛应用的一种方法为基于统计的识别方法,比如支持向量机(Support Vector Machine:SVM)(具体可详见V.N.Vapnik,Statistical Learning Theory,Springer,New York,2nd edition,1998,及C.J.C.Burges,A tutorial on support vector machines forpattern recognition,Data Mining and Knowledge Discovery,2(2):121-167,1998)是用来识别字符的最好的方法之一。当用支持向量机进行识别字符时,通常是事先搜集到很多字符样本,这个样本集也叫训练集。然后将训练集整批输入SVM进行训练.一般而言,SVM首先针对每俩类(如识别10个阿拉伯数字,则一共有C(10,2)=45个俩类问题,如0和1的识别问题,0和2的识别问题,…,8和9的识别问题等),利用求解二次规划问题,构造一个分类决策函数。当新的字符输入识别时,每一个俩类决策函数对其分类结果投票,最终的分类结果则为得到票数最多的那个字符。
基于统计的方法,尤其支持向量机所得到的分类面通常能得到较好的识别率,但在很多实际应用中,往往需要更高的识别率。比如对银行票据的识别就需要更高精度。整体的输入训练样本,会导致支持向量机对某些变形的样本考虑不够。换言之,这些少量的变形或轻微异常的样本很可能被支持向量机处理为噪声点,而不加考虑。而实际中,对这些变形的样本的识别往往直接影响着系统是否能取得更好的识别精度。同时基于统计的识别方法往往需要大量的训练样本,当仅存在少量变形样本时,直接应用基于统计的方法往往不能取得很好的识别效果。近年来有很多方法都集中在如何提高基于统计的方法如支持向量机的训练效率或识别速度
美国专利,专利号为6,327,581,发明名称为“Methods and apparatus forbuilding a support vector machine classifier”,以及美国专利,专利号为6,134,344,发明名称为“Method and apparatus for improving the efficiency ofsupport vector machines”的内容作为本发明的背景技术合并于此。然而,这些方法在处理高度变形样本时,由于它们同样整体的输入训练样本,同样会导致支持向量机对某些变形的样本考虑不够,从而不能取得好的识别效果。
发明内容
针对现有技术的缺陷,本发明提供一种字符识别的方法、装置、程序与可读存储介质。该字符识别方法采用两级识别的方式进行:在第一级里利用传统的统计方法,比如支持向量机对样本进行识别,那些变形或轻微异常的样本往往会被第一级识别错误,在第二级结构里则对第一级传统识别错误的样本单独进行处理。采用两级结构能够很好的处理变形的样本,从而能极大地提高系统的精度。
本发明的目的之一是提供一种字符识别方法,所述方法包括以下步骤:对输入的字符样本进行识别,产生识别结果;生成所述识别结果的置信度;根据所述置信度判断所输入的字符样本是否属于变形样本;若为非变形样本,则将所述识别结果作为最终识别结果并输出;若为变形样本,则对变形样本进行识别,生成最终识别结果并输出。
所述对输入的字符样本进行识别采用支持向量机的方法。
所述置信度通过匹配距离拟合分布的方法来生成。
通过匹配距离拟合分布的方法来生成置信度,进一步包括以下步骤:产生识别结果和每个字符类别的匹配距离;按照匹配距离由小到大的顺序选择前l个匹配距离作为候选距离;根据所述l个候选距离计算所述识别结果的置信度。
根据所述置信度判断所输入的字符样本是否属于变形样本,具体包括以下步骤:若所述置信度大于设定阈值,则判断输入的字符样本为非变形样本;反之,则判断输入的字符样本为变形样本。
所述对变形样本进行识别,具体包括以下步骤:生成变形样本模板库,将所述变形样本与所述变形样本模板库的模板向量取差得到差异特征;将所述变形样本转换成类内差异和类间差异,并判断所述差异特征属于类内差异或类间差异;将所述变形样本识别成具有最大置信度的类内差异模板的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710078767.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:异型坯铸机连铸耐候钢的结晶器保护渣
- 下一篇:广告播放方法以及广告播放网络





