[发明专利]数据压缩/解压设备/方法及程序记录媒体无效
申请号: | 98105688.1 | 申请日: | 1998-03-23 |
公开(公告)号: | CN1194504A | 公开(公告)日: | 1998-09-30 |
发明(设计)人: | 矢作裕纪;森原隆 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | H03M7/30 | 分类号: | H03M7/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 酆迅 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据压缩 解压 设备 方法 程序 记录 媒体 | ||
本发明一般涉及用于将包含由众多字节表示的字符的文本数据压缩/解压的设备和方法。更具体地,本发明的目的是能够将日文文本数据压缩/解压的设备/方法,以及还有一种程序记录媒体。
最近的几年来,随着电子邮件和类似信件的盛行,由个人计算机处理和存储的电子文本的数量迅速增加。例如,有许多用户每天处理几百封至一千封电子邮件。一年之内存储多于几百兆字节文本数据的情况并不少见。
在这种情况下,通过去除冗余信息而压缩数据量,有可能缩短数据传送时间,及还能减少数据存储容量。曾建议和使用了不同数据压缩方法。目前有一些可用的压缩方法将不同类型的数据压缩,其范围包括字符码,向量信息和图像。在这些压缩方法中使用所谓“通用编码”法。
现在简单地阐述归入“通用编码”法的数个编码方法。应注意在下面的描述中数据的单个单元表示为“字符”,众多互相连结的“字符”表示为“串”,这些都沿袭信息理论中所用名称。
首先,现归纳一下算术编码法。有两种算术编码,也即二进制算术编码及涉及多于三个值的多值算术编码。在多值算术编码中,等于0或更大及小于1的数线(此后表示如〔0,1))的值根据组成待编码数据的每个字符的出现概率(出现频率)顺序地变窄。接着,当所有字符都处理完后,标示变窄范围内一点的数值作为编码被输出。
例如,在一种情况下五个待编码字符为a,b,c,d,e及这五个字符的出现概率分别为0.2,0.1,0.05,0.15,0.5。对于每个字符分配一个范围,它的宽度对应于它们的出现概率(见图24)。
然后,在待编码串为“abe”的情况下,如图25中原理性地阐述的,首先对于字符“a”,将范围〔0,1)变窄为另一范围〔0,0.2)。随后根据有关字符的出现概率将此范围划分为不同范围,以及根据“b”的范围计算而得的范围〔0.04,0.06)被选为另一串“ab”的范围。此外,对应于有关字符的出现概率,此范围〔0.04,0.06)划分为不同范围,接着根据下一个字符“e”的范围计算而得的另一个范围〔0.05,0.06)被选为串“abe”的范围。此后,当位于此最后范围内的一个任意点(例如一个较低极限点)的位置由二进制数表示时,小于十进制点的位串作为编码结果被输出。
应注意算术编码法根据对应于出现概率(出现频率)而划分范围的方法进一步分为静态编码系统,半自适应编码系统及自适应编码系统。在静态编码系统中,根据预设的有关字符的出现频率而不是实际出现频率划分范围。在半自适应编码系统中,根据通过开始时扫描全部字符而获得的出现频率划分范围。在自适应编码系统中,每当字符出现时即重新计算出现频率,从而重新设置范围。此算术编码系统在例如由Prentice-Hall,Inc.1990年出版的由Bell,T.C.Cleary,J.G,和Witten,I.H.编写的“文本压缩”中有描述。
另一方面,此技术领域中还知道称为“倾斜编码法”的另一种通用编码法。在倾斜编码法中每当一个字符编码时执行一个重新安排编码树(也即带有树结构的编码表)的过程,以便为具有较高出现频率的字符分配一个较短的编码。在例如刊登于1988年8月出版的Commun.ACM第31卷第8期第996至1007页上由Jones,Douglas W.编写的“倾斜树数据压缩的应用”中对倾斜编码法有更详细的描述。
还知道一个称为混和倾斜编码法的另一种编码法。混和倾斜编码法就是在倾斜编码法中采用一种称为混和模型的统计学模型。
在混和倾斜编码法中,为每个上下文准备一个编码树。如图26中原理性阐述的,一个上下文等于紧靠在待编码字符(“C”)之前的串(“ab”)。在混和倾斜编码法(混和模型)中,用作上下文阶数的字符数是对应于图27中所示上下文树中出现的上下文程度而进行控制的。也即,一般而言,当将具有字符间强相关关系的数据编码时,所用上下文的阶数较高,则压缩率也可较高。另一方面,当将具有字符间弱相关关系的数据编码时,使用较高阶数的上下文有时不但不会改善而且会使压缩比变坏。为避免此问题,采用混和模型技术。在混和模型中,如此地根据输入数据改变有关上下文的阶数以便当一定上下文容易出现时即增加此上下文阶数,而当另一个上下文不容易出现时其阶数即低。
由于以上描述的相应的编码方法是在使用字母的文化领域中开发的,因此当使用相应的编码方法压缩数据时一个字节作为一个字符处理。其结果是,当句子中包含的字母由2个字节表示时会出现问题,例如日文,与英文文本比较,当用相应技术压缩日文时,即无法得到如此高的压缩率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/98105688.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:微波炉
- 下一篇:用于制作表面的泡沫玻璃及其用途和制备方法