[发明专利]一种汉字编码的方法无效
申请号: | 201010528090.3 | 申请日: | 2010-11-02 |
公开(公告)号: | CN102243623A | 公开(公告)日: | 2011-11-16 |
发明(设计)人: | 潘文林 | 申请(专利权)人: | 泗阳天琴软件科技有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 223700 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉字编码 方法 | ||
技术领域
本发明属于计算机文字信息处理
背景技术
计算机的汉字编码有过一段曲折的发展历史,最早采用的GB 2312-80标准,由于汉字的数量有几万甚至十几万,该标准的编码就无法满足其需求了,因此有GBK,乃至ISO10646/Unicode标准。下面简单介绍一下这些标准的内容:
GB2312有6763个汉字,包含所有的第一级汉字和第二级汉字中的常用部分2第一级汉字(16-55区的汉字)以拼音字母为序进行排列,同音字以笔形顺序横、竖、撇、捺、折为序,起笔相同的按第二笔,依次类推;第二级汉字(56-87区的汉字)按部首为序进行排列。
GBK有21003个汉字,是双字节编码,每个字符用两个字节表示。共23940个码位,定义了21886个字符,包括21003个汉字和883个图形符号。
GB18030是国家强制标准,多字节字符集,它的字符可以用一个、两个或四个字节表示,GB18030-2000要求支持27533个汉字,最新GB18030-2005有70244个汉字。
ISO10646/Unicode规定了一套字符集,如果不算兼容区,目前有70217个汉字。包含了世界上的大多数字符,规定了这些字符的编码,每个编码可以理解为一个数字,美国的Unicode只规定了字符集,只规定了1对应的是什么字符,2对应的是什么字符。至于传输和存储,各个系统必须自己实现。
GB18030双字节部分与Unicode的映射没有规律,只能通过查表方法映射。
无论是Windows XP还是Vista,中文(中国)区域对应的默认代码页还是GBK。我们只能设置区域,并不能设置区域对应的默认代码页。所以在Windows世界,只要微软不愿意,GB18030就只是一张普通的代码页。
目前的简体中文文档使用的编码主要是Unicode和GBK,应该没有什么文档会用GB18030保存。
以上的编码的根本缺点是占用了大量的计算机内存资源,缺乏扩展性,如果增添新发现的古字或者其他的汉字,目前的编码中无法应付这些新增加的汉字,又要重新给这些汉字编码,因此这样的一个编码系统,无论是18030还是Unicode,具有的封闭型,占用资源,而且因为没有规律可循,汉字的检索速度慢。
发明内容
本发明就是针对目前的汉字编码,在GB 2312-80的基础上,进行了改进,其根据就是汉字元的发明方法。
字元数量的90%左右采用国家1-2级汉字,其余的根据具体需要从总的汉字筛选,字元的数量大概在4000个左右,因此GB2312一级汉字的编码可以满足这些字元的分配使用,汉字的部件/偏旁部首(非成字)部分采用编码范围6001~6999。
汉字的编码分为以下3种情况:
1 “字元+部件”或者的“部件+字元”汉字,采用“部件编码+字元编码”,分别对应编码的高4位和低4位
2 “汉字+字元”或者“字元+汉字”采用汉字编码+字元编码,分别对应编码的高4位和低4位,这里
特殊例子,如“峰”和“峯”,为了保证其编码的唯一性,取其中的汉字山的编码的补码。方法是先把该字元的4位十六进制编码转换成八位二进制编码,然后取其的补码,在转换成4位十六进制编码。注意字元是个相对概念,如“峰”,“夆”是字元,“山”是汉字;但是在“灿”中,“山”是字元,
3 “部件x+部件y”,采用8位编码,顺序是先上后下,先左后右,先外后里。
这里的部件是现代汉语意义上的非成字偏旁部首,如“疒”、“阝”等。
字元的编码按照汉语拼音的排序,采用4位十六进制编码;比如字元“阿”字的编码依旧是“1601”;GB8213中,汉字“华”的编码是“2710”,“木”是“3630”,“桦”是“7275”按照本发明的编码,不需要为“桦”单独编码,其编码是“36302710”。
因此理论上只要有这4千个左右的字元编码和一千个部件/部首的编码,能够满足所有的汉字编码,目前估计汉字的总量大概在十万左右。该方法能够节省大量的计算机内存资源,可以对新补充的汉字,不必重新分配编码,理论上可以满足百万个汉字的编码,同时编码根据字元的汉语拼音顺序,有逻辑性,能够提升汉字的检索速度,为中国的汉字编码制定国际标准提供了依据。
具体实施方式
把从1-2级汉字选取3000多个汉字,然后在从目前的汉字总量选取1000个左右的字元,根据其汉字拼音进行排序,原则上,每个字元对应30-100个汉字,在GB8213的基础上,对每个字元进行编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泗阳天琴软件科技有限公司,未经泗阳天琴软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010528090.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:钒渣焙烧生产五氧化二钒的方法
- 下一篇:一种双层真空式电热煮水保温瓶