[发明专利]基于非完整识别的词语快速输入方法在审
申请号: | 201210284415.7 | 申请日: | 2012-08-10 |
公开(公告)号: | CN102937837A | 公开(公告)日: | 2013-02-20 |
发明(设计)人: | 周红全 | 申请(专利权)人: | 上海驿创信息技术有限公司 |
主分类号: | G06F3/023 | 分类号: | G06F3/023;G06K9/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200434 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 完整 识别 词语 快速 输入 方法 | ||
技术领域
本发明涉及联机手写识别技术中的词语识别和输入方法。
背景技术
目前用于联机手写识别输入法主要有三种方式,一是单(整)字识别技术,二是整句识别输入技术,三是叠写输入技术。
方式一是目前主流的技术,其缺点在于,每个字都必须完整的写完,用户确认识别结果后再写下一个字,相对拼音等其他输入法,输入效率十分低下。
方式二是对方式一的改善,允许用户一次书写多字或整句,相对减小用户和机器交互次数,其缺点在于,每个字都必须完整写完,用户书写时间并没有减少,且一旦识别出错,交互时间将大大增加,因此目前并不太流行。
方式三是对方式一的改善,允许用户在书写完第一个字时,不等待识别结果继续书写第二个字,从而减小用户和机器交互次数,其缺点在于,每个字都必须完整写完,用户书写时间并没有减少,书写强度反而提高了,且一旦识别出错,交互时间将大大增加,是目前刚刚推出的一项新技术。
由于目前联机手写识别的理念和方法缺陷,造成中文手写识别输入效率很低,尤其是在手机,平板电脑等触摸屏上,大部分都没有手写笔,迫切需要一种使用方便,输入正确率高,用户书写强度小的手写识别输入法。
发明内容
本发明的目的在于克服目前联机手写识别输入法现有技术的不足,提供了基于非完整手写识别的词语快速输入方法。利用该方法,用户不需要任何学习,就能大大减少输入强度,同时避免用户在有些字不会完整写的情况下而造成无法通过手写识别来输入的情况,相对于单字联机手写识别输入法,可以把输入效率提高几倍。本发明的技术基础是非完整手写模式识别,基于此技术,可以实现单字非完整手写识别,词语非完整手写识别、拼音手写联合词语输入和词语智能联想手写识别。其中词语非完整手写识别和拼音手写联合词语输入是本发明的核心。
本发明提供了一种供用户快速、准确手写输入的方法。该方法共包括四种方式,第一种方式为单字非完整手写识别,第二种方式为词语非完整手写识别,第三种方式为拼音手写联合词语输入,第四种方式为词语智能联想手写识别。
第一种方式:单字非完整手写识别。所谓单字非完整手写识别,就是用户以手写方式输入其想要输入的汉字时,用户可以以任何方式(包括连笔,草书等)来书写,但关键的一点是,书写的整个轨迹或笔迹可以不是一个完整意义上的汉字,即用户仅仅需要书写汉字的某一部分,系统把检测得到的用户书写的整个轨迹与指定汉字范围的每个汉字进行匹配,从而得到每个汉字的预测识别概率,把指定汉字范围内所有汉字的预测识别概率从高到低排序后就得到了非完整手写识别的预测候选字系列。单字非完整手写识别的一个主要核心是汉字模板派生,所谓模板派生,就是对于每一个汉字,我们可以按照汉字的构成进行分解,同时也结合书写过程派生出很多子字模板。这样对于每一个子字模板,我们可以利用现有的整字识别算法让用户书写轨迹与其进行匹配,完成匹配后会得到一个匹配概率,将这个匹配概率乘以该子字模板在与之对应的整字中的权重,就可以得到这个汉字的基于这个子字模板的一个预测识别概率。如果一个汉字含有多个整字和子字模板,则该汉字最终的预测识别概率取其全部模板匹配得到的所有预测识别概率中的最大值。每个汉字的子字模板事先都必须全部生成好。我们以“她”字为例,讲述单字非完整手写识别的原理,假设“她”共设计了四个模板,分别是T1“她”、T2“女”、T3“也”以及T4“女字和横折钩(也字第一笔)”。显然模板T1是是一个完整的整字模板,模板T2,T3,T4均为“她”字派生的子字模板。四个模板的权重系数由模板自身的完整度通过计算来确定,假设分别为W1,W2,W3,W4,显然W1为100%,其它3个模板的权重系数必定小于1,且W3大于W2。假设系统检测到用户书写的轨迹,则系统把这个轨迹与每个汉字的所有模板(包括整字模板以及该汉字的子字模板)分别进行匹配。在与“她”字进行匹配时,匹配过程为,将检测到的轨迹分别与T1,T2,T3和T4按照既有的整字识别算法进行匹配,此时必然得到4个匹配概率分别表示为P1,P2,P3和P4,那么P1*W1,P2*W2,P3*W3,P4*W4就是用户书写轨迹在与“她”字进行匹配时得到的4个概率,取其中的最大值作为用户书写轨迹在与“她”匹配时的预测识别概率。由此可见,当一个汉字H共有n个模板T(0),T(1)…T(n-1),则任意书写轨迹与之匹配时均得到n个匹配概率P(0),P(1)…P(n-1),若每个模板的权重为W(0),W(1)…W(n-1),则该字最终的预测识别概率P(H)可以表达为:P(H)=MAX(P(i)*W(i))其中i=0,1,...,n-1,表达为该字的第i个模板,MAX表示取最大值。当然在实际实施过程中,由于考虑连笔、草书等因素,预测识别概率还需考虑统计特征等其它因素。如果指定的汉字范围中包含m个汉字,每个汉字表达为H(0),H(1)…H(m-1)。则通过上述方法,把用户书写轨迹与每个汉字进行匹配后,我们将会得到每个汉字的预测识别概率P(H(0)),P(H(1))…P(H(m-1))。将此概率系列按照大小进行排序后,就得到了与用户书写轨迹相对应的预测识别候选字系列。因此,利用该方法可以达到用户在不需要书写完整汉字的情况下就能正确进行预测识别。如果再结合其它输入方式缩小汉字范围后,将会大大提高预测精度。同时该方法也允许用户自己创建、派生个性化模板,以输入自己的一些独特写法,例如签名等。该方式构成了下列其它所有输入方式的技术基础。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海驿创信息技术有限公司,未经上海驿创信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210284415.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:扇形空域绘制方法及装置
- 下一篇:一种自动保存用户界面状态的方法