[发明专利]一种网页数据压缩存储方法和系统在审
申请号: | 201110264127.0 | 申请日: | 2011-09-07 |
公开(公告)号: | CN102982046A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | 闫瑞;韩金宇;罗志国;孙少陵 | 申请(专利权)人: | 中国移动通信集团公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 谢安昆;宋志强 |
地址: | 100032 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 数据压缩 存储 方法 系统 | ||
技术领域
本发明涉及数据处理技术,特别涉及一种网页数据压缩存储方法和系统。
背景技术
为了提高数据的传输效率和节省数据的存储空间,可采用数据压缩技术来对数据进行压缩,数据能够被压缩是因为其本身具有冗余性,数据压缩技术即指利用某种算法将数据的冗余尽可能地缩小,并尽可能地减少失真。
数据压缩技术通常分为无损压缩和有损压缩。
无损压缩是指对压缩数据进行还原后能够得到与原始数据完全相同的数据。无损压缩主要应用于要求重构信号和原始信号完全一致的场合,如文本数据、程序的压缩。无损压缩的压缩率较低,通常为1/2~1/5。典型的无损压缩算法有哈夫曼(Huffman)编码、算术编码、游程编码等。
有损编码是指对压缩数据进行还原后得到的数据与原始数据有所不同,但不影响原始数据表达的信息,因此压缩率要大得多。有损压缩主要应用于语音、图像和视频等数据的压缩。典型的有损压缩算法有脉冲编码调制(PCM,Pulse Code Modulation)、预测编码、变换编码、插值和外推等。
网页数据压缩通常采用无损压缩,并以单个网页为单位进行压缩,具体实现方式如下:获取待压缩的网页,按照某种算法对其进行压缩,得到压缩数据,将压缩数据进行保存,并对应保存该网页的统一资源定位符(URL,Uniform Resource Locator)。后续,当需要读取该网页时,根据该网页的URL找到其对应的压缩数据,并对压缩数据进行解压缩,从而得到该网页。
但是,上述方式在实际应用中会存在一定的问题:某些情况下,不同的网页之间会存在一定的共性,比如同一网站中的不同网页,而现有技术中在对网页进行压缩时,以单个网页为单位,未考虑不同网页之间的共性,比如两个网页有40%的内容相同,但这相同的40%的内容会被压缩两次,也会被存储两次,从而不但降低了压缩效率,而且增大了对存储空间的占用。
发明内容
有鉴于此,本发明提供一种网页数据压缩存储方法和系统,能够提高压缩效率和节省存储空间。
为达到上述目的,本发明的技术方案是这样实现的:
一种网页数据压缩存储方法,包括:
当需要对任一网页进行压缩时,将所述网页划分为两个以上分块;
针对每个分块,分别确定是否已经存储了其对应的压缩数据,如果否,则压缩该分块,并将压缩数据进行存储,如果是,则不进行压缩。
一种网页数据压缩存储系统,包括:
压缩服务器,用于当需要对任一网页进行压缩时,将所述网页划分为两个以上分块;针对每个分块,分别向存储服务器发送查询请求,查询其中是否已经存储了该分块对应的压缩数据,如果接收到否认消息,则压缩该分块,并将压缩数据存储到所述存储服务器中,如果接收到确认消息,则不进行压缩;
所述存储服务器,用于存储压缩数据,并根据接收自所述压缩服务器的查询请求向其返回确认或否认消息。
可见,采用本发明所述方案,如果网页的某一分块对应的压缩数据已经存在,即之前的某一网页存在和该网页同样的该分块且已经进行压缩存储,则不再重复压缩,否则,才进行压缩,从而提高了压缩效率,而且,由于不需要针对每个网页均存储其完整的压缩数据,因此节省了存储空间。
附图说明
图1为一种模板示意图。
图2为本发明网页数据压缩存储方法实施例的流程图。
图3为图1所示模板对应的DOM树示意图。
图4为本发明网页数据压缩存储方法较佳实施例的流程图。
图5为本发明网页数据压缩存储系统实施例的组成结构示意图。
具体实施方式
针对现有技术中存在的问题,本发明中提出一种改进后的网页数据压缩存储方案,能够提高压缩效率和节省存储空间。
如前所述,某些情况下,不同的网页之间会存在一定的共性,比如同一网站中的不同网页。
同一网站中的网页大都是基于一类或几类模板生成的。图1为一种模板示意图,如图1所示,按照该模板,一个网页共可被分为A、B、C、D、E 5部分,其中,A、B、C、D部分为网页中的导航和广告等信息,E部分为正文信息。对于均按照图1所示模板生成的不同网页,其A、B、C、D部分通常是相同的,只有E部分不同。
那么,如果网页1和网页2均为按照图1所示模板生成的网页,且已经压缩存储了网页1的A、B、C、D、E部分,那么后续当需要对网页2进行压缩存储时,则可不用再压缩存储网页2中的A、B、C、D部分,只需压缩存储与网页1中不同的E部分即可。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110264127.0/2.html,转载请声明来源钻瓜专利网。