[发明专利]网页质量检测方法及装置有效
申请号: | 201510050373.4 | 申请日: | 2015-01-30 |
公开(公告)号: | CN104615705B | 公开(公告)日: | 2018-09-18 |
发明(设计)人: | 王丽杰;吴先超;刘占一 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 路凯;崔雪青 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 质量 检测 方法 装置 | ||
本发明实施例公开了一种网页质量检测方法及装置,所述方法包括:获取根据用户查询语句得到的搜索结果中的多个网页;基于预设的语法语义分析法,生成获取的各个网页的摘要;将所述多个网页中的一个网页作为待检测的目标网页,根据所述目标网页与所述多个网页中其他网页之间在摘要上的相似度,确定所述目标网页的质量。本发明实施例提供的技术方案,可以提高网页质量检测结果的准确率,以使得搜索引擎能够据此很好的计算出查询语句与网页之间的相关性,提升用户的搜索体验。
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种网页质量检测方法及装置。
背景技术
目前,搜索引擎在接收到用户输入的查询语句后,进行相关网页检索的过程中,网页质量的好坏直接决定着网页召回结果。利用网页质量的检测结果,不仅可以去除一些作弊网站提供的网页,而且还可以改善搜索结果排名的准确度,例如网页质量好的应该排在前面。
当前搜索结果主要依赖于网页质量、查询语句与网页的相关性等。其中,查询语句与网页的相关性,主要依赖于查询语句中所使用的分词(或者相关的分词)、分词在当前查询语句中的重要性、分词间的紧密程度等,以及这些信息在网页中的表现形式(是否紧密出现,分词在该网页中是否相对重要等),是否与在查询语句中的表现形式相匹配,根据匹配程度得到查询语句与网页的相关性;对当前网页质量的检测,所主要使用的方法是pagerank(网页排名)方法,具体是根据网页的入链数量以及入链质量来确定网页的质量,入链数量越多,入链质量越好,一般其网页质量也就越高,即跟其他网页关联度越大,其重要度也越大。
然而,对于现有的网页质量检测结果而言,其准确率往往较差,并不能够据此很好计算出查询语句与网页之间的相关性,从而使得最终所呈现的网页与用户想要的网页相差较大,从而影响了用户的搜索体验。
发明内容
本发明实施例提供一种网页质量检测方法及装置,以提高网页质量检测结果的准确率,以使得搜索引擎能够据此很好的计算出查询语句与网页之间的相关性,提升用户的搜索体验。
第一方面,本发明实施例提供了一种网页质量检测方法,包括:
获取根据用户查询语句得到的搜索结果中的多个网页;
基于预设的语法语义分析法,生成获取的各个网页的摘要;
将所述多个网页中的一个网页作为待检测的目标网页,根据所述目标网页与所述多个网页中其他网页之间在摘要上的相似度,确定所述目标网页的质量。
第二方面,本发明实施例还提供了一种网页质量检测装置,该装置包括:
网页获取模块,用于获取根据用户查询语句得到的搜索结果中的多个网页;
网页摘要生成模块,用于基于预设的语法语义分析法,生成获取的各个网页的摘要;
网页质量确定模块,用于将所述多个网页中的一个网页作为待检测的目标网页,根据所述目标网页与所述多个网页中其他网页之间在摘要上的相似度,确定所述目标网页的质量。
区别于传统的基于pagerank算法的网页质量检测法,本发明实施例提供的技术方案,从不同网页间在基于语法语义分析得到的摘要上的关联性这一角度出发,来进行网页质量检测。由于得到的摘要能够简明确切地记述网页的主要内容,所以通过根据目标网页与其他网页之间在摘要上的相似度,来确定目标网页的质量,可以提高网页质量检测结果的准确率,以使得搜索引擎能够据此很好的计算出查询语句与网页之间的相关性,提升用户的搜索体验。
附图说明
图1是本发明实施例一提供的一种网页质量检测方法的流程示意图;
图2是本发明实施例二提供的一种网页质量检测方法的流程示意图;
图3A是本发明实施例三提供的一种构建网页知识网络的方法的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510050373.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多源信息应用系统及应用方法
- 下一篇:一种移动终端及数据存储的方法