[发明专利]一种识别相似网页的方法及装置有效
申请号: | 201210590333.5 | 申请日: | 2012-12-31 |
公开(公告)号: | CN103049562A | 公开(公告)日: | 2013-04-17 |
发明(设计)人: | 李鹏 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 黄厚刚 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 相似 网页 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,特别涉及一种识别相似网页的方法及装置。
背景技术
随着互联网的普及和发展,无论是网站数量还是网站下的网页数量,都呈现爆炸式增长。由此产生了许多新兴的互联网服务,如网页聚类,网页分类等服务,这些服务都是根据网页呈现的信息为网页进行分类,由此提供更好的用户体验。在对网页进行分类时,需要对待分类网页进行相似性判断,找到与待分类网页相似的已知类别的网页即可确定待分类网页的类别。
网页是由HTML(Hypertext Markup Language,超文本标记语言)元素信息构成,因此某些HTML元素信息的组合对一个网页来说是特有的,这就构成了网页的特征,通过人工整理出网页的特征并建立样本库,识别出含有同样特征的网页即可为待分类网页进行分类。另一种方式是将网页转化为图像,然后对该图像的水平和竖直方向分割成一组小的图像,分别计算每个图像的直方图,每个网页对应一组直方图,通过比较待分类网页与已知分类网页的两组直方图的相似性,为待分类网页进行分类。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
通过人工收集网页的特征,耗费时间过长且效率低下;通过直方图判断网页的相似性时,由于不记录每个图片中的颜色信息在图片中的位置,因此只要图片中的颜色信息相似度高则判断为相似,因此对网页的误判率较高,会被确定为错误的类别。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种识别相似网页的方法及装置。所述技术方案如下:
第一方面,本发明实施例提供的一种识别相似网页的方法包括:
分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息;
根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度;
当所述相似度大于预设相似阈值时,确定所述第一网页和所述第二网页为相似网页。
在第一方面的第一种可能的实现方式中,所述分别获取待分类的第一网页和已知类别信息的第二网页的超文本标记语言HTML元素信息,包括:
根据待分类的第一网页的统一资源定位符URL地址,获取所述第一网页的文档对象模型DOM结构信息;
在已知类别网页数据库中获取已知类别信息的第二网页的DOM结构信息;
分别对所述第一网页的DOM结构信息和所述第二网页的DOM结构信息进行广度优先遍历,生成所述第一网页的HTML元素信息的第一序列集合和所述第二网页的HTML元素信息的第二序列集合;
删除所述第一序列集合中与网页结构无关的HTML元素信息以及所述第二序列集合中与网页结构无关的HTML元素信息。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述删除所述第一序列集合中与网页结构无关的HTML元素信息以及所述第二序列集合中与网页结构无关的HTML元素信息,包括:
将所述第一序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除;
将所述第二序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除。
结合第一方面的第一种可能的实现方式,在第三种可能的实现方式中,所述根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度,包括:
获取所述第一序列集合包括的HTML元素信息的第一数量;
获取所述第二序列集合包括的HTML元素信息的第二数量;
根据所述第一数量和所述第二数量,计算所述第一网页和所述第二网页的相似度。
结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述根据所述第一数量和所述第二数量,计算所述第一网页和所述第二网页的相似度,包括:
若所述第一数量等于所述第二数量,则根据序列相似度算法计算所述第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度;
若所述第一数量大于所述第二数量,则在所述第一序列集合中按顺序选取所述第二数量的HTML元素信息作为新的第一序列集合,并根据序列相似度算法计算所述新的第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210590333.5/2.html,转载请声明来源钻瓜专利网。