[发明专利]可作为输入码和内码的电脑汉字编码文字的编码方法无效

专利信息
申请号: 201010193813.9 申请日: 2010-06-07
公开(公告)号: CN101923399A 公开(公告)日: 2010-12-22
发明(设计)人: 范显镔 申请(专利权)人: 范显镔
主分类号: G06F3/023 分类号: G06F3/023
代理公司: 深圳市中知专利商标代理有限公司 44101 代理人: 成义生;罗永前
地址: 610000 *** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 作为 输入 内码 电脑 汉字编码 文字 编码 方法
【说明书】:

【技术领域】

发明涉及电脑汉字的编码方法,特别是涉及一种可作为输入码和内码的电脑汉字编码文字的编码方法。

【背景技术】

目前,随着电脑的普及,电脑的操作和应用已成为人们生活中的一部分,而在电脑操作和应用中,必须通过汉字输入法输入汉字。为此,人们开发出多种汉字输入法,而汉字输入法则是以汉字编码方法为基础。汉字编码包括输入码和内码,其中内码为置于电脑内存中的国标码,即GB 2312(简体中文字符集中国国家标准),输入码则为汉字输入编码,各种输入法的输入码不同。

研究各种汉字输入法可见,一个普遍存在的问题是,它们都无法解决重码问题。以“五笔字型”汉字输入法为例,假如我们要输入汉字“祖”,其区位码是5570,国标码是5766H(字母H表示是16进制数),五笔字型输入法规定该字的输入码是PYEG,这意味着须按PYEG的顺序击键4次,特定的输入程序根据输入码PYEG查出“祖”的机内码是5766H+8080H=D7E6(16进制数,D是13,E是14)。然后在电脑屏幕上显示“祖”字。为什么不直接将输入码PYEG送入内存代表汉字“祖”呢?PYEG占4个字节,比内码所占位置多一倍,这是原因之一。但主要的原因却是目前在中国应用的几百种汉字编码,都不可避免地有重码。如五笔字型规定“赢,嬴,蠃,羸”的输入码都是YNKY。当需输入其中之一时,输入程序就将这几个字全部显示出来,要求选字,即用鼠标点击或击键输入一个数字来确定一个字,然后则根据选择将不同的机内码(分别是D3AE、D9F8、D9F9、D9FA)送入内存。否则,在译码时读出YNKY,就无法确定输出“赢,嬴,蠃,羸”中的哪一个。所以,五笔字型输入法将输入码变换成GBK码,是因无法做到无重码,不得己而采取了一种牺牲效率的方法。其他输入法也大都如此。

世界上充分发展的语言都是由词构成的,汉语也不例外。为了便于人或计算机对语言文字的分析理解,文字应该以词为单位表示。也就是说一个词中的各个音节连写在一起,而词与词之间由空格或标点符号分隔,这即为分词连写。要使汉语内码的分词连写并非易事,这是因为有效率的汉字编码都是不等长的。不等长的编码连写在一起常会引起音节之间界限的混淆。例如:

安→an,西→xi,先→xian

三个汉字的编码并无重码,但将源文件“xian”译码成汉字时,它可以译成“西安”,也可译成“先”,即发生了音节界限的混淆。又如:

安→an,感→gan,观→guan,广→guang

四个汉字的编码也无重码,但将源文件“guangan”译码成汉字时,它可以译成“广安”,也可译成“观感”,即发生了音节界限的混淆,因而没有唯一可译性。

现行的《汉语拼音方案》没有解决这个问题。它提出必要时加单引号做隔音符号。上世纪七十年代以后推出的各种汉字编码也都没有解决这个问题。它们或者采用等长码(这时肯定没有音节界限混淆),或者在每个汉字编码后面加一个空格,因而显著地损失了编码效率。

对大量的英汉互译资料统计表明,一个汉字翻译成英文约花费3.7个字母。因此我们可以认为,表示汉语的字母式文字如果其实用性、易读性与英文相当,平均码长小于3.7,则其效率超过英语。在计算机中表示汉语的文字效率超过英文,十分有利于我们追赶世界科技文化先进水平。然而,要做到平均码长小于3.7相当困难。据统计,汉语拼音方案的平均码长已有3.1。为了给每一个音节标调又不采用在字母上面划记号的办法,假定是用后缀1、2、3、4标调,则平均码长增加到4.1。这时尚未区分同音字。新华字典中的有些音节的同音同调的汉字就有几十个。为了区分同音字又需要增加一到两位数字。这时平均码长就达5.1以上。上面这些数据足以说明使平均码长小于3.7并非易事。

此外,在电子邮件通信业务中,由多字节2进制数内码(简称内码)的变换过程也可见现有汉字编码方法的缺陷。

如果信件是汉字,发件者人工输入输入码,输入程序将其变换成内码。内码的特点是占两个或三个字节(1字节等于8个2进位),每个字节的最高位是1。因为这些高位是1的数据在网络传输时不能通过某些只允许字符通过的网关,所以在发送前要进行base64变换,变换后长度增加1/3倍,形成传输码,才可发送至网络。接收方从网络中收到邮件数据后,先要进行反base64变换,将传输码变成内码,再由操作系统中汉字转换程序将内码变换成汉字输出。该过程示意如下:

汉字→输入码→内码→传输码→网络→传输码→内码→汉字。

而英语电子邮件传输过程为:

英语→网络→英语

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于范显镔,未经范显镔许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010193813.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top