[发明专利]一种汉字编码的方法无效

申请号：	201010528090.3	申请日：	2010-11-02
公开（公告）号：	CN102243623A	公开（公告）日：	2011-11-16
发明（设计）人：	潘文林	申请（专利权）人：	泗阳天琴软件科技有限公司
主分类号：	G06F17/22	分类号：	G06F17/22
代理公司：	暂无信息	代理人：	暂无信息
地址：	223700 江苏省***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种汉字编码方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于计算机文字信息处理

背景技术

计算机的汉字编码有过一段曲折的发展历史，最早采用的GB 2312-80标准，由于汉字的数量有几万甚至十几万，该标准的编码就无法满足其需求了，因此有GBK，乃至ISO10646/Unicode标准。下面简单介绍一下这些标准的内容：

GB2312有6763个汉字，包含所有的第一级汉字和第二级汉字中的常用部分2第一级汉字(16-55区的汉字)以拼音字母为序进行排列，同音字以笔形顺序横、竖、撇、捺、折为序，起笔相同的按第二笔，依次类推；第二级汉字(56-87区的汉字)按部首为序进行排列。

GBK有21003个汉字，是双字节编码，每个字符用两个字节表示。共23940个码位，定义了21886个字符，包括21003个汉字和883个图形符号。

GB18030是国家强制标准，多字节字符集，它的字符可以用一个、两个或四个字节表示，GB18030-2000要求支持27533个汉字，最新GB18030-2005有70244个汉字。

ISO10646/Unicode规定了一套字符集，如果不算兼容区，目前有70217个汉字。包含了世界上的大多数字符，规定了这些字符的编码，每个编码可以理解为一个数字，美国的Unicode只规定了字符集，只规定了1对应的是什么字符，2对应的是什么字符。至于传输和存储，各个系统必须自己实现。

GB18030双字节部分与Unicode的映射没有规律，只能通过查表方法映射。

无论是Windows XP还是Vista，中文(中国)区域对应的默认代码页还是GBK。我们只能设置区域，并不能设置区域对应的默认代码页。所以在Windows世界，只要微软不愿意，GB18030就只是一张普通的代码页。

目前的简体中文文档使用的编码主要是Unicode和GBK，应该没有什么文档会用GB18030保存。

以上的编码的根本缺点是占用了大量的计算机内存资源，缺乏扩展性，如果增添新发现的古字或者其他的汉字，目前的编码中无法应付这些新增加的汉字，又要重新给这些汉字编码，因此这样的一个编码系统，无论是18030还是Unicode，具有的封闭型，占用资源，而且因为没有规律可循，汉字的检索速度慢。

发明内容

本发明就是针对目前的汉字编码，在GB 2312-80的基础上，进行了改进，其根据就是汉字元的发明方法。

字元数量的90％左右采用国家1-2级汉字，其余的根据具体需要从总的汉字筛选，字元的数量大概在4000个左右，因此GB2312一级汉字的编码可以满足这些字元的分配使用，汉字的部件/偏旁部首(非成字)部分采用编码范围6001～6999。

汉字的编码分为以下3种情况：

1 “字元+部件”或者的“部件+字元”汉字，采用“部件编码+字元编码”，分别对应编码的高4位和低4位

2 “汉字+字元”或者“字元+汉字”采用汉字编码+字元编码，分别对应编码的高4位和低4位，这里

特殊例子，如“峰”和“峯”，为了保证其编码的唯一性，取其中的汉字山的编码的补码。方法是先把该字元的4位十六进制编码转换成八位二进制编码，然后取其的补码，在转换成4位十六进制编码。注意字元是个相对概念，如“峰”，“夆”是字元，“山”是汉字；但是在“灿”中，“山”是字元，

3 “部件x+部件y”，采用8位编码，顺序是先上后下，先左后右，先外后里。

这里的部件是现代汉语意义上的非成字偏旁部首，如“疒”、“阝”等。

字元的编码按照汉语拼音的排序，采用4位十六进制编码；比如字元“阿”字的编码依旧是“1601”；GB8213中，汉字“华”的编码是“2710”，“木”是“3630”，“桦”是“7275”按照本发明的编码，不需要为“桦”单独编码，其编码是“36302710”。

因此理论上只要有这4千个左右的字元编码和一千个部件/部首的编码，能够满足所有的汉字编码，目前估计汉字的总量大概在十万左右。该方法能够节省大量的计算机内存资源，可以对新补充的汉字，不必重新分配编码，理论上可以满足百万个汉字的编码，同时编码根据字元的汉语拼音顺序，有逻辑性，能够提升汉字的检索速度，为中国的汉字编码制定国际标准提供了依据。

具体实施方式

把从1-2级汉字选取3000多个汉字，然后在从目前的汉字总量选取1000个左右的字元，根据其汉字拼音进行排序，原则上，每个字元对应30-100个汉字，在GB8213的基础上，对每个字元进行编码。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于泗阳天琴软件科技有限公司，未经泗阳天琴软件科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201010528090.3/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种汉字编码的方法无效

专利文献下载