[发明专利]一种校正输入中文拼写的方法无效
申请号: | 201010605512.2 | 申请日: | 2010-12-22 |
公开(公告)号: | CN102541837A | 公开(公告)日: | 2012-07-04 |
发明(设计)人: | 周连惠 | 申请(专利权)人: | 张家港市赫图阿拉信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 215600 江苏省张家港市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 校正 输入 中文 拼写 方法 | ||
技术领域
本发明属于中文信息处理。
背景技术
随着计算机和网络的普及,特别是在中国,目前的网民人数有3亿之多,这对于目前的国内的Internet的发展起到了有力的推动;但是,随之而来的是大量的汉子错别字出现在网络和其相关的媒体。
错别字包括错字,指写的不成字,规范字典中查不到的字;还有别字,指把甲字写成乙字,俗称“白字”。别字列举如下(括号内是正确的字):
1.农付产品(副)
2.拾园钱(圆)
3.簿利多销(薄)
由于汉语言不同于英文单词之间用空格;汉字之间没有空格,只有在出现词组的情况下,才能够判断词组的“字”是对还是错,上面的“付、园、簿”只有在这些词组中才能够判断其正确与否,单独的字,计算机无法判断其对错;而英文如“pruduct”,显然是拼写错误,正确的“product”;计算机可以立刻判断出来。因此,就目前的计算机语言处理而言,汉语言只能对“别字”进行判断和矫正。而现有的软件只对少部分的别字进行识别,比如上面的3个词组;只有“农付产品”软件“word”可识别并且鉴定。
发明内容
本发明就是针对目前广泛存在的输入中文别字普遍的现象,而且又没有合式的软件进行自动识别和矫正,进行了深入研究而提出的方法,在此发明的基础上可以编写出软件。
还有,哪些试图采用对词语切分的方法进行别字的矫正的途径,是很难实现的。比如一篇文章中出现了“农付产品”的“付”别字,如果采用软件对它切分,结果是农/n付/v产品/n n代表名词,v代表动词。
因此仍然无法判断和矫正;另外如果对整篇文本采用逐渐遍历的方式进行分析判断匹配,那么计算机的计算量非常大,非常不经济。我们以下面这句话作为例子:
第一节中导致“HuaYu”出现分词不一致的主要结构类型多与语言学家与老百姓对词的认识差异有关。
如果这句话出现了如下的别字:
第一节中导置“HuaYu”出现分词不一致的主要结构类形多与语言学家与老百姓对词的认识差异有关。
如果对整个句子从第一个字开始分析,会导致庞大的计算,但是如果根据下面的规则对句子进行切分,会大幅度减少计算机的工作量:
1先根据标点符号和非汉字字符串(,;。?[(),abcセゲ阿拉伯数字)的切分成一个单独的子句
2对划分出来的子句:除去代词:我、你、她们;助词:的、地,(但是先要除去”的士、打的、大地”),连词:从、而且、与;然后是联绵词(彷佛、玛瑙、葡萄等),专有名词(李白、世界贸易组织),再切分若干个词组;考虑到汉语的词组长度的概率,定义为最长词组是8字词,超过的不予考虑。
3把欲处理的词组转换成拼音包括(多音字),
4把转换的词组拼音与语料库的同样字长的词组拼音进行循环匹配比较,
N(8)拼音不同,到(n-1)词组…最后到2字词组;继续进行这个循环。
以8字词组为例,用数字代表汉字(12345678);比较的步骤如下:
拼音不同(8个字),与语料库的7字词组的拼音比较匹配;从子句(“N-1”7字长)的第一个字到第七个字;从第二个字到最后一个字;
1 12345678
2 12345678
拼音不同(7个字),与语料库的6字词组的拼音比较匹配:
n-2(6字长)
1.12345678
2.12345678
3.12345678
拼音不同(6个字),与语料库的5字词组的拼音比较匹配;方法如下:
n-3(5字长)
1.12345678
2.12345678
3.12345678
4.12345678
拼音不同(5个字),与语料库的4字词组的拼音比较匹配;方法如下:
N-4(4字长)
1.12345678
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于张家港市赫图阿拉信息技术有限公司,未经张家港市赫图阿拉信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010605512.2/2.html,转载请声明来源钻瓜专利网。