[发明专利]汉字音形兼容二用信息交换码编码方案无效

专利信息
申请号: 89108345.6 申请日: 1989-11-02
公开(公告)号: CN1043015A 公开(公告)日: 1990-06-13
发明(设计)人: 林宇威 申请(专利权)人: 林宇威
主分类号: G06F3/023 分类号: G06F3/023
代理公司: 暂无信息 代理人: 暂无信息
地址: 广东省广州市东山区合*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 汉字 兼容 信息 交换 编码 方案
【说明书】:

汉字音形兼容二用信息交换码编码方案是一个用来编制形式类似国标码但能同时代表汉字音形二个信息的汉字交换码的编码方案。

如所周知,汉字具有形、音二个特征,但目前用来进行汉字信息交换用的通用代码-邮电码和国标码都只是一种汉字字形的信息交换码,不能同时用来直接交换汉字的字音信息,另外,现在还没有一种通用的汉字字音交换码,目前一般采用汉语拼音来标注汉字的发音,用汉语拼音来标注和输入汉字的发音是可行的,但不适宜用它来做汉字的字音交换码,因为它不是一种等长的数字码,转换成二进制码码字很长,用来传递汉字字音信息效率太低,且难以与现有代码体制和设备兼容,为了满足日益发展的汉语语音处理技术的需要,建立一种高效且能与现有代码体制和设备兼容的通用汉字字音交换码是很有必要的。

但单纯建立一种高效通用的汉字字音交换码意义还不够大,因为这样的字音码虽然可以满足一些单纯的汉语语音处理设备的需要,仍无法满足那些需要频繁进行汉字形音信息转换的汉语自然语言输入输出和处理设备的需要,在这类设备中,如果汉字的字形和字音各自使用一种彼此无关的字形码和字音码,进行形→音或音→形信息转换所需的硬件设备和软件程序仍将会十分复杂。

解决问题最理想的办法显然是,设法为汉字建立一种音形兼容的二用信息交换码,即一种既能代表汉字字形,又能同时代表汉字发音的交换码,这是一个具有相当吸引力的设想,如果能够实现,无疑将会为汉字音形信息的传输和转换带来很大的好处和方便。

专利的目的是尝试探讨建立这种汉字音形兼容二用信息交换码的途径和方法,并提出一个初步的具体编码方案供人们参考。

如所周知,汉字发音具有同音特性,在总数6763个常用一、二级汉字中,不同发音仅有1301种(GB2312-80标准),一种发音,最少的仅与一个汉字对应,最多的具有60个同音字(如“Yì”音),利用汉字发音的这种同音特性,我们可以建立起一种形式为“字音代码+同音字序号”的音形兼容二用码,例如,用一个6位十进制数X6X5X4X3X2X1便可构造出一种最简单的音形兼容二用码,其中X6X5X4X3为字音代码,取值范围0001~1301,代表汉字发音的序号;X2X1为同音字序号,取值范围01~60,一个字的字形用全码来代码,它的发音用字音代码来代表。不过,这种用简单方法构成的汉字音形兼容二用码,由于码字太长(需占3个字节),代码空间利用率很低,显然不是一种理想的可供推广使用的音形兼容二用码。

为了建立具有实用意义的音形兼容二用码,我们希望音形兼容二用码具有国标码那样的形式,因此,我们的努力方向应该是设法将上述6位十进制数字形式的音形兼容二用码压缩成为4位十进制数,并使它对应的二进制码具有类似国标码那样的双字节7位码的形式(即总共14位二进制码的形式),令它也能和ASC11码相互兼容。

乍一看来,这一目标似乎是无法实现的,的确如此,作者探索过多种方案均未获成功,下面介绍的方案是本专利申请者找到的唯一可以基本满足上述要求的方案,为了抛砖引玉,现提出来供人们参考。

为了叙述的方便,我们把汉字音形兼容二用信息交换码拆分为字形码和字音码二种形式(其实它们只是一种码),这二种码都是4位十进制数字形式的代码,彼此兼容,兼容的意思是指二种码的后三位码的码值完全相同,第一位码的码值有些区别,但可用简单方法来进行转换,下面先来介绍这二种码的结构形式、代码含义和相互之间的关系。

字形码和字音码的十进制形式为a4a3a2a1和A4A3A2A1,取值范围和相互关系为a1=0~9,a4a3a2=000~999;A1=0或6,A4A3A2=a4a3a2。

字形码和字音码的二进制形式及它们之间的相互关系为:

十进制形式字形码和字音码中的a1和A1的值分别等于对应二进制码第二字节前4位码按权重“6-4-2-1”二-十进制码进行变换的变换值(“6-4-2-1”二-十进制码二-十进制数的变换关系为0000~0,0001~1,0010~2,0011~3,0100~4,0101~5,1000~6,1001~7,1010~8,1011~9),由于二进制形式字音码最前三位码的码值恒为0,故A1仅能取0和6二值;十进制形式字形码和字音码中a4a3a2和A4A3A2的值,分别等于对应二进制码第一字节和第二字节后三位码总共共十位二进制码所对应的十进制数。

由以上代码含义和取值范围可知:

1.字形码码位总数为10000,字音码码位总数为2000;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于林宇威,未经林宇威许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/89108345.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top