[发明专利]基于多分类器的手写体字符识别拒识方法无效
申请号: | 200910089147.1 | 申请日: | 2009-07-31 |
公开(公告)号: | CN101630367A | 公开(公告)日: | 2010-01-20 |
发明(设计)人: | 殷绪成;郝红卫;唐云峰 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分类 手写体 字符 识别 方法 | ||
技术领域
本发明提出了几种基于多分类器的手写体字符识别拒识方法,能够有效提高识别拒识字符的可靠性和识别其余字符的准确性。
背景技术
在模式识别领域中,脱机手写体字符识别依然是一个具有挑战性的难题,在某些应用领域中要达到较低的错误率往往会带来很大的系统风险。因此在手写体字符识别的实际应用中,为了提高系统的稳定性和可靠性,将拒识算法应用到系统中,从而提高系统的整体性能。此外,还可以检测出未正确识别的字符,将其提交给一个辅助的识别系统中,或提交给人工处理。
目前普遍采用的一种方法是计算每个字符的置信度。利用简单的阈值操作便可以实现拒识。置信度的计算方法主要有两种,一种方法是置信度由一个简单的函数组成,在识别处理中产生合适的参数,或者被看成是一种学习任务,通过训练数据得到新的分类器输出。另一种方法是在识别处理后计算置信度。这种方法计算的置信度可以用识别评分,似然比,后验概率估计,指数概率,和负熵来表示。
为了克服单分类器的局限性,采用多分类器的思想可以进一步提高系统的性能。分类器集成的方法可分为:抽象级(类标签),排序级(排序),和测量级(类置信度)。本发明在抽象级,提出了0R,AND和VOTING的拒识方法;在测量级,提出了均值和权值线性结合的拒识方法。具有不同特征、结构、学习算法和训练数据的分类器会表现出不同的分类特性,将这些特性进行融合会优于最好的单分类器。
发明内容
为了提高手写体字符识别系统的可靠性,更好的解决识别率和拒识率的矛盾,本发明提出了一种基于单分类器的拒识方法和一种基于多分类器的拒识方法。
本发明以单分类器拒识方法为基础,研究了抽象级和测量级的多分类器拒识方法。在抽象级,提出了OR,AND和VOTING三种投票组合拒识方法;在测量级,提出了求和(均值)和加权两种线性组合拒识方法。本发明提出的拒识方法能够有效的提高识别拒识字符的可靠性和识别其余字符的准确性。
本发明的技术方案是:首先,给出单分类器拒识方法,然后,以单分类器拒识方法为基础,给出多分类器拒识方法。
1.单分类器拒识方法
单分类器拒识方法分为三个步骤:(1)初始归一化,(2)置信度计算和(3)拒识。分类器输出经过初始归一化变换到一个适当的范围,使得不同分类器的输出值具有可比性。用激活函数将经过初始归一化的输出值变换成置信度。相应的激活函数有三种:log-likelihood,likelihood,和sigmoid。归一化函数包括全局归一化,一维高斯密度模型,和多维高斯密度。
1.1.初始归一化
选取归一化函数的一个基本原则是,分类器的输出经归一化函数的变换将分布在0附近。经过归一化函数变换的置信度的理想值应能表示输入模式属于一个具体类别的概率。
确定分类器输出范围的一个简单的方法是将输出变换到均值为0,标准差为1,即:
这里d表示分类器的输出,μ0和σ02分别代表分类器输出的均值和方差。这个归一化函数为全局归一化函数。
假设对于每个类别,分类器的输出满足多维高斯分布,方差为σ2。分类器输出经过排序,目标类别的输出值排位高其他类别的输出值排位低,假设输出值有两种:目标类为μ+,其他类为μ-,即对于ωi类,mii=μ+和mij=μ-,j≠i。如果负样本均值为μr,则归一化函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910089147.1/2.html,转载请声明来源钻瓜专利网。