[发明专利]网页去重方法和设备有效
申请号: | 201210223009.X | 申请日: | 2012-06-30 |
公开(公告)号: | CN102799647A | 公开(公告)日: | 2012-11-28 |
发明(设计)人: | 姜南;张辉;万嘉 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘芳 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 方法 设备 | ||
技术领域
本发明涉及网络通信技术,尤其涉及一种网页去重方法和设备。
背景技术
当使用搜索引擎寻找想要的信息时,搜索引擎返回的结果中,存在大量的内容重复链接,甚至是死链接,这使得用户获取信息非常耗时和不方便。由于互联网站的数目非常庞大,搜索引擎的核心模块之一的爬虫的工作量和其要读写的数据规模也难以想象,如果能够快速且准确度高的去除内容重复的网页,就不仅能避免反馈给用户重复信息,而且能节省后续处理的系统资源。
现有技术中,对备选网页正文进行哈希(hash)计算,检索已存哈希值的网页集合,通过判定相同哈希值的数量是否超过给定阈值,若是,则认为是重复网页。但是,这种方式准确度低,只能将一字不改的网页确定为重复网页,不能将在原网页基础上删除或添加一些句子形成的新网页进行去重处理。
发明内容
本发明提供一种网页去重方法和设备,用以提高去重的准确度。
本发明的第一个方面是提供一种网页去重方法,包括:在目标网页中提取出至少一个核心句,所述核心句是指含有网页主要内容信息的句子;将每个所述核心句映射为唯一的数值,组成第一数值集;确定所述第一数值集与每个第二数值集的交集以及每个交集中包含的数值的个数,并确定出所述每个交集中包含的数值的个数的最大值,所述第二数值集为预先确定的备选网页集中每个网页包含的核心句映射得到的数值组成的集合;当所述最大值与所述第一数值集中的数值的总数量的比值大于设定阈值时,则将所述目标网页作为重复网页处理。
本发明的另一个方面是提供一种网页去重设备,包括:提取模块,用于在目标网页中提取出至少一个核心句,所述核心句是指含有网页主要内容信息的句子;映射模块,用于将每个所述核心句映射为唯一的数值,组成第一数值集;比较模块,用于确定所述第一数值集与每个第二数值集的交集以及每个交集中包含的数值的个数,并确定出所述每个交集中包含的数值的个数的最大值,所述第二数值集为预先确定的备选网页集中每个网页包含的核心句映射得到的数值组成的集合;去重模块,用于当所述最大值与所述第一数值集中的数值的总数量的比值大于设定阈值时,则将所述目标网页作为重复网页处理。
由上述技术方案可知,本发明实施例通过提取核心句,由于核心句是包含主要内容信息的句子,可以将主要内容相同的网页确定为重复网页进行去重处理,提高准确度以及增强抗噪声能力;并且,本实施例在比较时采用核心句映射成的数值进行比较,可以减少计算的数据规模,提高性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明网页去重方法一实施例的流程示意图;
图2为本发明网页去重方法另一实施例的流程示意图;
图3为本发明网页去重方法另一实施例的流程示意图;
图4为本发明网页去重设备一实施例的结构示意图;
图5为本发明网页去重设备另一实施例的结构示意图;
图6为本发明网页去重设备另一实施例的结构示意图;
图7为本发明网页去重设备另一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明网页去重方法一实施例的流程示意图,包括:
步骤11:在目标网页中提取出核心句,所述核心句是指含有网页主要内容信息的句子;
其中,目标网页是指新下载的网页,要判断是否对该新下载的网页进行去重处理。
核心句也可以称为关键句,是指含有网页主要内容信息的句子,可以理解为所有核心句表达的内容之和基本上就是该网页所要表达的内容。
核心句可以是根据关键词确定的,或者,也可以是根据聚类算法确定的。
关键词可以采用如下方式确定:
首先,对文本进行预处理,例如,断句、分词、词性标注、过滤停用词和虚词(如“啊”,“哦”,“的”等词)等,剩下的就是一些实词,如“公司”、“收集”、“套餐”等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210223009.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:风扇高置和集成两台发电机的发动机前端轮系
- 下一篇:柴油发电机组