[发明专利]一种汉字编码的方法无效

专利信息
申请号: 201010528090.3 申请日: 2010-11-02
公开(公告)号: CN102243623A 公开(公告)日: 2011-11-16
发明(设计)人: 潘文林 申请(专利权)人: 泗阳天琴软件科技有限公司
主分类号: G06F17/22 分类号: G06F17/22
代理公司: 暂无信息 代理人: 暂无信息
地址: 223700 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 汉字编码 方法
【说明书】:

技术领域

发明属于计算机文字信息处理

背景技术

计算机的汉字编码有过一段曲折的发展历史,最早采用的GB 2312-80标准,由于汉字的数量有几万甚至十几万,该标准的编码就无法满足其需求了,因此有GBK,乃至ISO10646/Unicode标准。下面简单介绍一下这些标准的内容:

GB2312有6763个汉字,包含所有的第一级汉字和第二级汉字中的常用部分2第一级汉字(16-55区的汉字)以拼音字母为序进行排列,同音字以笔形顺序横、竖、撇、捺、折为序,起笔相同的按第二笔,依次类推;第二级汉字(56-87区的汉字)按部首为序进行排列。

GBK有21003个汉字,是双字节编码,每个字符用两个字节表示。共23940个码位,定义了21886个字符,包括21003个汉字和883个图形符号。

GB18030是国家强制标准,多字节字符集,它的字符可以用一个、两个或四个字节表示,GB18030-2000要求支持27533个汉字,最新GB18030-2005有70244个汉字。

ISO10646/Unicode规定了一套字符集,如果不算兼容区,目前有70217个汉字。包含了世界上的大多数字符,规定了这些字符的编码,每个编码可以理解为一个数字,美国的Unicode只规定了字符集,只规定了1对应的是什么字符,2对应的是什么字符。至于传输和存储,各个系统必须自己实现。

GB18030双字节部分与Unicode的映射没有规律,只能通过查表方法映射。

无论是Windows XP还是Vista,中文(中国)区域对应的默认代码页还是GBK。我们只能设置区域,并不能设置区域对应的默认代码页。所以在Windows世界,只要微软不愿意,GB18030就只是一张普通的代码页。

目前的简体中文文档使用的编码主要是Unicode和GBK,应该没有什么文档会用GB18030保存。

以上的编码的根本缺点是占用了大量的计算机内存资源,缺乏扩展性,如果增添新发现的古字或者其他的汉字,目前的编码中无法应付这些新增加的汉字,又要重新给这些汉字编码,因此这样的一个编码系统,无论是18030还是Unicode,具有的封闭型,占用资源,而且因为没有规律可循,汉字的检索速度慢。

发明内容

本发明就是针对目前的汉字编码,在GB 2312-80的基础上,进行了改进,其根据就是汉字元的发明方法。

字元数量的90%左右采用国家1-2级汉字,其余的根据具体需要从总的汉字筛选,字元的数量大概在4000个左右,因此GB2312一级汉字的编码可以满足这些字元的分配使用,汉字的部件/偏旁部首(非成字)部分采用编码范围6001~6999。

汉字的编码分为以下3种情况:

1 “字元+部件”或者的“部件+字元”汉字,采用“部件编码+字元编码”,分别对应编码的高4位和低4位

2 “汉字+字元”或者“字元+汉字”采用汉字编码+字元编码,分别对应编码的高4位和低4位,这里

特殊例子,如“峰”和“峯”,为了保证其编码的唯一性,取其中的汉字山的编码的补码。方法是先把该字元的4位十六进制编码转换成八位二进制编码,然后取其的补码,在转换成4位十六进制编码。注意字元是个相对概念,如“峰”,“夆”是字元,“山”是汉字;但是在“灿”中,“山”是字元,

3 “部件x+部件y”,采用8位编码,顺序是先上后下,先左后右,先外后里。

这里的部件是现代汉语意义上的非成字偏旁部首,如“疒”、“阝”等。

字元的编码按照汉语拼音的排序,采用4位十六进制编码;比如字元“阿”字的编码依旧是“1601”;GB8213中,汉字“华”的编码是“2710”,“木”是“3630”,“桦”是“7275”按照本发明的编码,不需要为“桦”单独编码,其编码是“36302710”。

因此理论上只要有这4千个左右的字元编码和一千个部件/部首的编码,能够满足所有的汉字编码,目前估计汉字的总量大概在十万左右。该方法能够节省大量的计算机内存资源,可以对新补充的汉字,不必重新分配编码,理论上可以满足百万个汉字的编码,同时编码根据字元的汉语拼音顺序,有逻辑性,能够提升汉字的检索速度,为中国的汉字编码制定国际标准提供了依据。

具体实施方式

把从1-2级汉字选取3000多个汉字,然后在从目前的汉字总量选取1000个左右的字元,根据其汉字拼音进行排序,原则上,每个字元对应30-100个汉字,在GB8213的基础上,对每个字元进行编码。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泗阳天琴软件科技有限公司,未经泗阳天琴软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010528090.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top