[发明专利]文本数据处理方法和装置无效
| 申请号: | 201010586550.8 | 申请日: | 2010-12-09 |
| 公开(公告)号: | CN102567294A | 公开(公告)日: | 2012-07-11 |
| 发明(设计)人: | 仇睿恒;胡薇 | 申请(专利权)人: | 北京大学;北大方正集团有限公司;北京北大方正技术研究院有限公司 |
| 主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
| 代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 陈源;罗建民 |
| 地址: | 100871*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 数据处理 方法 装置 | ||
1.一种文本数据处理方法,包括以下步骤:
读取待压缩文本数据的数据流;
对于所述数据流中已指定压缩方法的语种数据流,以指定压缩方法或指定压缩工具进行压缩;对于所述数据流中未指定压缩方法的语种数据流,以默认压缩方法或默认压缩工具进行压缩;
将经过压缩的各数据流按照其在所述待压缩文本数据的数据流中的先后顺序进行合并。
2.根据权利要求1所述的方法,其特征在于,还包括以下步骤:
根据指定压缩方法、该压缩方法所处理的语种数据流、和相应压缩工具在本地或网络上的位置,生成配置文件。
3.根据权利要求1或2所述的方法,其特征在于,还包括以下步骤:
根据已指定压缩方法的语种数据流、压缩该语种数据流的指定压缩方法、和相应压缩工具在本地或网络上的位置,生成配置文件。
4.根据权利要求2或3所述的方法,其特征在于,对于任一种语种数据流,如果在配置文件中的指定压缩工具的位置无法找到指定压缩工具或者指定压缩方法不符合规范,则利用默认压缩方法或默认压缩工具对该语种数据流进行压缩。
5.根据前述权利要求中任一项所述的方法,其特征在于,根据不同语种的特点将所述数据流中的字符分成拉丁字符、扩展字符、数字字符和标点字符,其中,拉丁字符属于能够通过空格和标点将词分开的语种字符,扩展字符属于不能通过空格和标点将词分开的语种字符。
6.根据权利要求5所述的方法,其特征在于,对于拉丁字符、扩展字符、数字字符和标点字符中的至少两种,采用相同的默认压缩方法或者分别采用不同的默认压缩方法。
7.根据权利要求5所述的方法,其特征在于,对于拉丁字符和扩展字符,默认压缩方法包括以下步骤:
对于拉丁字符,根据空格和标点将拉丁字符分成多个词,并统计各个词的出现频率,形成初步的字典;对于扩展字符,直接将每个字符提取出来,并统计每个字符的出现频率,形成所述初步的字典;
对所述初步的字典中的词或字符按照出现频率进行排序,删除出现频率小于预定值的词或字符;对于所述初步的字典中剩余的词或字符分配编码,并按照字典编码法利用这些编码对语种为拉丁字符或扩展字符的数据流进行压缩。
8.根据权利要求5、6或7所述的方法,其特征在于,
对于属于拉丁字符的英语字符,指定PPM方法;和/或
对于属于扩展字符的中文字符,指定LZSSCN压缩方法;和/或
对于属于扩展字符的日语,指定HORI压缩方法。
9.一种文本数据处理装置,包括:
输入单元,其用于打开文本数据文件,建立该文件的文本数据的数据流;
压缩单元,其用于读取通过输入单元输入的数据流,对于所述数据流中已指定压缩方法的语种数据流,以指定压缩方法或指定压缩工具进行压缩,对于所述数据流中未指定压缩方法的语种数据流,以默认压缩方法或默认压缩工具进行压缩;
合并单元,其用于将经过压缩单元压缩的各数据流按照其在通过输入单元输入的数据流中的先后顺序进行合并;和
配置单元,其用于根据为数据流语种指定的压缩方法和相应压缩工具在本地或网络上的位置生成配置文件,使得压缩单元根据配置文件以指定压缩方法或指定压缩工具对已指定压缩方法的语种的数据流进行压缩。
10.根据权利要求9所述的装置,其特征在于,还包括用户界面,以供用户输入为数据流语种指定的压缩方法和相应压缩工具在本地或网络上的位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京北大方正技术研究院有限公司,未经北京大学;北大方正集团有限公司;北京北大方正技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010586550.8/1.html,转载请声明来源钻瓜专利网。





