[发明专利]页面的搜索特性的分析方法和分析装置有效

专利信息
申请号: 201710308061.8 申请日: 2017-05-04
公开(公告)号: CN107133321B 公开(公告)日: 2020-06-12
发明(设计)人: 尹文科;徐健;刘高强;闫彬 申请(专利权)人: 广东神马搜索科技有限公司
主分类号: G06F16/953 分类号: G06F16/953;G06F40/289;G06F40/30
代理公司: 北京展翼知识产权代理事务所(特殊普通合伙) 11452 代理人: 屠长存
地址: 510627 广东省广州市天河区黄埔大*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 页面 搜索 特性 分析 方法 装置
【说明书】:

发明公开了一种页面的搜索特性的分析方法和分析装置。其中,分析方法包括:计算查询集中的历史查询请求和页面集中的页面之间的第一相似度;将第一相似度超过第一预定阈值的历史查询请求和页面视为相互匹配;根据页面的匹配信息,对页面进行分析,以确定页面的搜索特性。由此,分析方法中的步骤均可以离线实现,并且页面的搜索特性是基于页面与历史查询请求的匹配信息确定的,与现有的页面分析方案相比,所确定的页面的搜索特性不仅更加符合用户的搜索意图,还可以挖掘出满足用户冷门需求的页面以及新页面。

技术领域

本发明涉及搜索技术领域,特别是涉及一种页面的搜索特性的分析方法和分析装置。

背景技术

现有的商业搜索引擎基本均采用了图1所示的总体架构,即通过爬虫定期抓取互联网上的网页,通过离线分析完成网页的特征计算和索引构建,最后由在线检索系统为用户提供检索服务。然而经估算,目前仅中文互联网就有大约100万亿的网页,且每天新增约100亿新的网页,如此庞大的规模对抓取、存储、索引、检索等构成了巨大的挑战。

目前主要的解决方法是从网页全集中挑选出认为有“价值”的子集优先进行处理,当前比较出名的网页价值分析方法主要包括PageRank(网页排名)和HITS(Hyperlink-Induced Topic Search,链接分析算法)。

PageRank的计算基于以下两个基本假设:

1.数量:在Web图模型中,如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。

2.质量:指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。

PageRank算法的优点在于它是一个与查询无关的静态算法,所有网页的PageRank值可以通过离线计算获得。然而该算法也存在着一些缺点:一是,热门页面的等级往往比长冷页面的等级高,不利于挖掘满足用户长冷需求的页面;二是,旧的页面等级会比新页面高,因为即使是非常好的新页面也不会有很多上游链接,因此不利于新页面的发现。

HITS算法是利用Web的链接结构进行挖掘的典型算法,其核心思想是建立在页面链接关系的基础上,其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息,HITS算法有两个重要概念:

1.Hub页面:指包含了很多指向高质量“Authority”页面的链接网页;

2.Authority页面:指某个领域或者某个话题相关的高质量网页。

HITS基于如下的基本假设:

假设1:一个好的“Authority”页面会被很多好的“Hub”页面指向;

假设2:一个好的“Hub”页面会指向很多好的“Authority”页面。

HITS算法的优点在于它能更好地描述互联网的组织特点,然而HITS算法也存在着一些缺点,例如效率低,HITS算法是与查询有关的算法,所以必须接收到用户查询后实时的进行计算,此外长冷链接挖掘和新链发现能力不足的问题也同样存在。

由此,需要一种能够更为准确地挖掘出有价值的页面的分析方案。

发明内容

本发明的主要目的在于提供一种页面的搜索特性的分析方法和分析装置,其能够更为准确地挖掘出符合用户的搜索需求的页面。

根据本发明的一个方面,提供了一种页面的搜索特性的分析方法,包括:计算查询集中的历史查询请求和页面集中的页面之间的第一相似度;将第一相似度超过第一预定阈值的历史查询请求和页面视为相互匹配;根据页面的匹配信息,对页面进行分析,以确定页面的搜索特性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东神马搜索科技有限公司,未经广东神马搜索科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710308061.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top