[发明专利]一种网页去重的方法无效

专利信息
申请号: 201210114263.6 申请日: 2012-04-18
公开(公告)号: CN102682085A 公开(公告)日: 2012-09-19
发明(设计)人: 李鹏 申请(专利权)人: 北京十分科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100004 北京市朝*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 方法
【说明书】:

技术领域

发明涉及互联网技术领域,尤其涉及一种网页去重的方法。

背景技术

随着互联网技术的发展,互联网成为人们获取各种信息的重要来源,但是在互联网上,也有很多信息是属于重复信息。目前几十亿上百亿网页中有大量信息重复的网页,这些重复网页的存在对于信息处理是非常麻烦的。

现在网页去重技术都基于这样一个基本思想:为每个网页文档计算出一组指纹(fingerprint),若两个文档拥有一定数量的相同指纹,则认为这两个文档的内容重叠性较高,也即二者是内容转载的。 

获取网页文档指纹的方式是采用了一种对全文分段签名的算法,这种算法把一篇网页文档按一定的原则分成N段(如每n行作为一段),然后对每一段进行签名(即计算指纹),于是每一篇文档就可以用N个签名后的指纹来表示。

但是这种网页去重技术方案存在运算复杂、内存占用大的问题。

发明内容

本发明的目的在于提出一种网页去重的方法,能够有效地去除现有系统的转载网页、重复网页和镜像网页。

为达此目的,本发明采用以下技术方案:

一种网页去重的方法,包括以下步骤:

A、提取网页正文信息;

B、对所述网页正文信息进行分词处理;

C、对分词处理结果进行统计,并按照词频排序;

D、将词频超过预设值的词选取出来,作为特征词结果串;

E、对所述特征词结果串进行MD5运算,作为所述网页的唯一特征值;

F、将所述特征词结果串的MD5值与特征串去重判别系统中的所有网页的特征词结果串的MD5值进行比对,如果相同,则去重,如果没有相同的,则将所述网页的特征词结果串的MD5值存储到所述特征串去重判别系统。

步骤E还包括以下步骤:

将特征词结果串中每个特征词都进行MD5计算;

步骤F中,先采用所述特征词结果串的MD5值进行比对,再在比对结果中采用特征词结果串中每个特征词的MD5值进行比对。

所述特征串去重判别系统中的所有网页的特征词结果串的MD5值采用哈希表方式存储。

步骤B中,根据专业词典和通用词典的集合,采用正向最大匹配分词算法对所述网页正文信息进行分词处理。

步骤C中,采用字典树的数据结构对分词处理结果进行统计。

步骤C中,采用内部快排的处理方法对统计结果进行排序处理,按词出现频率由高到低排列。

对专业词进行加权,再进行词频排序。

采用了本发明的技术方案,具有以下技术效果:

(1)可以有效地去除现有系统的转载网页和重复网页和镜像网页;

(2)可以快速高效地处理哈希定位系统,达到比较好的判别重复和内容相似处理的效果;

(3)应对的互联网网页量越大,分层系统越能体现优势;

(4)可以简单快速应对小批量网页去除重复的处理,可以快速地查询和批量加入处理;

(5)采用文件存储去重系统快速存储管理来应对大数据量的网页去重,快速的哈希定位系统可以做到离线存储哈希去重结构文件。

附图说明

图1是本发明具体实施方式中网页去重的流程图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

图1是本发明具体实施方式中网页去重的流程图。如图1所示,该网页去重的流程包括以下步骤:

步骤101、采用已有的网页识别和网页正文提取技术,提取得到网页正文信息。

步骤102、根据专业词典和通用词典的集合,采用正向最大匹配分词算法对该网页正文信息进行分词处理。

步骤103、对分词处理结果进行统计,采用字典树的数据结构对分词处理结果进行统计,可以减少内存的使用,达到更高效率。

步骤104、采用内部快排的处理方法对统计结果进行排序处理,按词出现频率由高到低排列。

步骤105、将词频超过预设值(例如10次)的词选取出来,作为特征词结果串。为了增加精准性,可以对专业词进行加权,改进排序,这样可以避免高频停用词的干扰,但是会增加排序时间。

步骤106、对该特征词结果串进行MD5运算,得到固定长度的唯一特征值,作为网页的唯一特征值。并将特征词结果串中每个特征词都进行MD5计算,存储在后台数据库中。

步骤107、特征串去重判别系统中的所有网页的特征词结果串的MD5值采用哈希表方式存储。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京十分科技有限公司,未经北京十分科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210114263.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top