[发明专利]一种汉字输入过程中的汉语拼音串处理方法及其系统无效
| 申请号: | 201010134541.5 | 申请日: | 2010-03-25 |
| 公开(公告)号: | CN102200839A | 公开(公告)日: | 2011-09-28 |
| 发明(设计)人: | 薛永刚;陈培军;秦吉胜;侯磊 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F3/023 | 分类号: | G06F3/023 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
| 地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 汉字输入 过程 中的 汉语拼音 处理 方法 及其 系统 | ||
技术领域
本申请涉及计算机汉字输入技术领域,尤其涉及一种汉字输入过程中的汉语拼音串处理方法及其系统。
背景技术
汉字输入法(Input Method Editor,IME),就是利用键盘,根据一定的编码规则来输入汉字的一种方法。从实现汉字输入原理上来看,可以分为两类:一类是形码,例如五笔输入法,这类输入方式是基于汉字的笔画进行编码的;另一类是音码,例如拼音输入法,它是建立在汉字读音的基础上。
拼音输入法是按照拼音来输入汉字的方法。为了能把用户输入的拼音转换为汉字输出,需要首先对用户输入的拼音流进行切分,分割为合法的拼音音节序列,然后将音节序列转换为汉字。音节是语音的基本单位,汉语普通话中,一个汉字的读音就是一个音节。每个音节由声母、韵母和声调三个部分组成,拼音输入技术中所称的音节是指合法的[声母,韵母]对。如何把拼音输入流正确切分为合法的拼音音节序列是实现拼音输入法的关键一步。
目前常用的拼音流切分技术包括动态规划方法。该方法用M矩阵的元素Mij记录i到j之间的分割代价,对拼音字符串C1C2……CN按音节进行划分,并用分段函数来计算每个子串Ci……Cj的代价值,最后取其中最小分割代价值所对应的分割结果,作为该拼音串的分割结果。其中,分割代价函数可以表示为:
该种方法由于需要进行分割代价的计算以及比较计算结果,因此计算量较大,必然影响拼音输入的效率,以及消耗较多的系统资源,并且该拼音串切分方法不支持模糊音输入。
发明内容
本申请实施例提供了一种汉语拼音串切分方法及其系统,用于解决现有拼音串处理技术系统资源消耗大、效率低以及不支持模糊音输入的问题。
根据本申请实施例的一个方面,提供了一种汉字输入过程中的汉语拼音串处理方法,包括如下步骤:
对接收到的汉语拼音串进行切分,分别将所述汉语拼音串中的声母和韵母作为切分子串得到切分子串序列;
对所述切分子串序列中的切分子串进行扩展,并根据扩展结果生成扩展子串序列集合;
按照音节组成特征对所述扩展子串序列集合中每个扩展子串序列进行音节抽取,得到对应的音节序列;
对各音节序列中的音节进行合法性验证,并根据验证结果删除包含有非法音节的音节序列。
根据本申请实施例的另一个方面,还提供了一种汉字输入过程中的汉语拼音串处理系统,包括:
切分模块,用于对接收到的汉语拼音串进行切分,分别将所述汉语拼音串中的声母和韵母作为切分子串得到切分子串序列;
扩展模块,用于对所述切分模块切分得到的切分子串序列中的切分子串进行扩展,并根据扩展结果生成扩展子串序列集合;
音节抽取模块,用于按照音节组成特征对所述扩展模块扩展得到的扩展子串序列集合中的每个扩展子串序列进行音节抽取,得到对应的音节序列;
过滤模块,用于对各音节序列中的音节进行合法性验证,并根据验证结果删除包含有非法音节的音节序列。
本申请的上述实施例,首先对汉语拼音串按设定的切分规则进行切分,然后对切分得到的子串序列进行扩展,从而生成扩展子串序列集合,实现了汉语拼音串的切分以及对切分结果的扩展。根据汉语发音规律,有些声母,如z、c、s等可以扩展为双字母声母,如zh、ch、sh,通过这种扩展可以支持用户的模糊音输入。另一方面,本申请实施例中,对扩展得到的扩展子串序列进行音节抽取处理得到音节序列,还要对音节序列中包含的音节的合法性进行验证,从而提高了音节序列扩展的合理性。与现有技术相比,本申请实施例不需要进行大量的数据计算以及比较算法的处理过程,因此可以降低系统资源消耗以及提高处理效率。
附图说明
图1为本申请的实施例提供的汉语拼音输入法中拼音串的处理流程示意图之一;
图2为本申请的实施例提供的汉语拼音输入法中拼音串的处理流程示意图之二;
图3为本申请的实施例提供的应用于汉语拼音输入法的汉语拼音串处理系统的结构示意图。
具体实施方式
用户在使用拼音输入法输入汉字的过程中,通常是顺序输入拼音字母,每个汉字的音节之间没有间隔符分开。拼音切分的主要功能是将用户输入的拼音串切分为音节(即[声母韵母]形式),以便将切分出的音节映射为汉字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010134541.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可就座的立体花卉种植设施
- 下一篇:一种水稻首脱式收获机





