[发明专利]一种网页去重的方法无效
| 申请号: | 201210114263.6 | 申请日: | 2012-04-18 |
| 公开(公告)号: | CN102682085A | 公开(公告)日: | 2012-09-19 |
| 发明(设计)人: | 李鹏 | 申请(专利权)人: | 北京十分科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100004 北京市朝*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网页 方法 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种网页去重的方法。
背景技术
随着互联网技术的发展,互联网成为人们获取各种信息的重要来源,但是在互联网上,也有很多信息是属于重复信息。目前几十亿上百亿网页中有大量信息重复的网页,这些重复网页的存在对于信息处理是非常麻烦的。
现在网页去重技术都基于这样一个基本思想:为每个网页文档计算出一组指纹(fingerprint),若两个文档拥有一定数量的相同指纹,则认为这两个文档的内容重叠性较高,也即二者是内容转载的。
获取网页文档指纹的方式是采用了一种对全文分段签名的算法,这种算法把一篇网页文档按一定的原则分成N段(如每n行作为一段),然后对每一段进行签名(即计算指纹),于是每一篇文档就可以用N个签名后的指纹来表示。
但是这种网页去重技术方案存在运算复杂、内存占用大的问题。
发明内容
本发明的目的在于提出一种网页去重的方法,能够有效地去除现有系统的转载网页、重复网页和镜像网页。
为达此目的,本发明采用以下技术方案:
一种网页去重的方法,包括以下步骤:
A、提取网页正文信息;
B、对所述网页正文信息进行分词处理;
C、对分词处理结果进行统计,并按照词频排序;
D、将词频超过预设值的词选取出来,作为特征词结果串;
E、对所述特征词结果串进行MD5运算,作为所述网页的唯一特征值;
F、将所述特征词结果串的MD5值与特征串去重判别系统中的所有网页的特征词结果串的MD5值进行比对,如果相同,则去重,如果没有相同的,则将所述网页的特征词结果串的MD5值存储到所述特征串去重判别系统。
步骤E还包括以下步骤:
将特征词结果串中每个特征词都进行MD5计算;
步骤F中,先采用所述特征词结果串的MD5值进行比对,再在比对结果中采用特征词结果串中每个特征词的MD5值进行比对。
所述特征串去重判别系统中的所有网页的特征词结果串的MD5值采用哈希表方式存储。
步骤B中,根据专业词典和通用词典的集合,采用正向最大匹配分词算法对所述网页正文信息进行分词处理。
步骤C中,采用字典树的数据结构对分词处理结果进行统计。
步骤C中,采用内部快排的处理方法对统计结果进行排序处理,按词出现频率由高到低排列。
对专业词进行加权,再进行词频排序。
采用了本发明的技术方案,具有以下技术效果:
(1)可以有效地去除现有系统的转载网页和重复网页和镜像网页;
(2)可以快速高效地处理哈希定位系统,达到比较好的判别重复和内容相似处理的效果;
(3)应对的互联网网页量越大,分层系统越能体现优势;
(4)可以简单快速应对小批量网页去除重复的处理,可以快速地查询和批量加入处理;
(5)采用文件存储去重系统快速存储管理来应对大数据量的网页去重,快速的哈希定位系统可以做到离线存储哈希去重结构文件。
附图说明
图1是本发明具体实施方式中网页去重的流程图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
图1是本发明具体实施方式中网页去重的流程图。如图1所示,该网页去重的流程包括以下步骤:
步骤101、采用已有的网页识别和网页正文提取技术,提取得到网页正文信息。
步骤102、根据专业词典和通用词典的集合,采用正向最大匹配分词算法对该网页正文信息进行分词处理。
步骤103、对分词处理结果进行统计,采用字典树的数据结构对分词处理结果进行统计,可以减少内存的使用,达到更高效率。
步骤104、采用内部快排的处理方法对统计结果进行排序处理,按词出现频率由高到低排列。
步骤105、将词频超过预设值(例如10次)的词选取出来,作为特征词结果串。为了增加精准性,可以对专业词进行加权,改进排序,这样可以避免高频停用词的干扰,但是会增加排序时间。
步骤106、对该特征词结果串进行MD5运算,得到固定长度的唯一特征值,作为网页的唯一特征值。并将特征词结果串中每个特征词都进行MD5计算,存储在后台数据库中。
步骤107、特征串去重判别系统中的所有网页的特征词结果串的MD5值采用哈希表方式存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京十分科技有限公司,未经北京十分科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210114263.6/2.html,转载请声明来源钻瓜专利网。





