[发明专利]一种评价网络资源价值的方法及其在搜索引擎领域的应用有效

专利信息
申请号: 200710065064.X 申请日: 2007-04-02
公开(公告)号: CN101281519A 公开(公告)日: 2008-10-08
发明(设计)人: 李钊;周鸿祎;刘旭平;谢军样 申请(专利权)人: 奇智软件(北京)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京海虹嘉诚知识产权代理有限公司 代理人: 张涛
地址: 100025北京市朝阳*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 评价 网络资源 价值 方法 及其 搜索引擎 领域 应用
【说明书】:

技术领域

发明涉及信息检索技术,特别是涉及一种利用相关目标的一种特定指标——人气指标(PeopleRank)进行检索、归纳的方法及其在搜索引擎领域的应用。

背景技术

目前搜索引擎一般都是通过用户输入一个或一组关键词或文字片段,经过检索处理后,向用户回馈相当数量的包含该关键词或文字片段或者与其密切相关的网页,以供用户浏览、查检所需的资讯。

然而,互联网上网页数量极其巨大,而且仍然在以空前的速度高速增长,如果仍然按照传统的搜索处理模式,即搜索引擎运营商将其搜集到的数量惊人的网页资源经以简单地分析处理,进行归类备用,那么按照用户的输入源经搜索所得的相关网页数量通常都是极其巨大,但是其中大部分为低价值甚至无价值的网页资源,这些无价值的或近似于无价值的网页大大增加了处理的难度,并将严重干扰处理的结果,从而有可能使得呈现给用户的往往是价值甚微的资源,这将严重浪费用户的时间和精力,间接的也将造成网络资源的浪费。

怎样才能将那些真正的满足客户需要的网页筛选出来优先提供给客户,即在提供给客户的反馈内容中能够真实反映客户需求的内容优先排列,是完全符合用户的利益的。因此如何判断用户的兴趣所在就成了搜索引擎运营商必须解决的问题。

对检索所得的网页进行相关性评价,就成了搜索领域技术中的关键。目前,关于网页的相关性的评价方法很多,其大都注重某一方面能反映客户需求或意图的因素,如检索词或句子的匹配程度、网页链接关系等,但是,仅仅利用这样的检索处理方法所得到的网页往往包含了诸多的复杂因素,很难准确地提供与客户实际需要紧密相连的搜索资源。因此,目前还没有一种较为完备的、成熟的可以较全面反映网页价值的评价方法。

经过长期实践,发现现有的大多数网页中均包含有各类的与人相关的因素,而这些人的因素对于网页的质量评价至关重要,能最大限度的反映该网页对于用户兴趣、意图所蕴含的价值,也就是利用这些人的因素可使网页的质量评价更加贴近用户的真实需求,从而使得所作出的评价更加准确,本发明正是根据这些人的因素为任一网络资源确定一权值,该权值称为PeapleRank值(简称为PR值)。

发明内容

针对现有搜索技术中存在的缺陷和不足,本发明的一个目的在于提供一种网络资源的价值评价方法,利用该方法可以有效评价网页资源对搜索用户的价值衡量,从而可以将高质量的、真正符合用户搜索意图的网页资源优先提供给用户,以减少用户浏览、查检网页的时间,提高用户的搜索效能。

本发明的另一个目的在于提供一种将该网络资源价值评估方法应用于网络搜索引擎的方法,利用本发明的网络资源评价方法,可以使得网络搜索时,给予搜索到的网络资源更为准确的权值,利用该权值,一方面可以剔出那些无价值或价值甚微的网络资源,另一方面可以将与用户真实意图更为贴切的资源优先排列呈给用户。

本发明的技术方案如下:

一种评价网络资源价值的方法,其特征在于:

包括以下步骤:

1)提取数据,提取网络资源上所包含的特定的与人相关的基本因素;

2)处理数据,结合采样时间计算该基本因素的变化率;

3)确定权值,根据该基本因素及其变化率计算并赋予该网络资源一确定的代表其质量价值的权值。

所述提取数据步骤中的基本因素包括:发生时间因素;用户阅读数量因素,如该网络资源的点击数或浏览数;相似内容数量因素;关联及推荐关系因素;作者价值因素;网站价值因素。

其中,除了发生时间因素;用户阅读数量因素,如该网络资源的点击数或浏览数可以直接获得外,网络资源的相似内容数量因素、关联及推荐关系因素、作者价值因素、网站价值因素等都需要进一步加工才能转换为可计算的基本因素。最后将各个基本因素按照设定的函数关系变换为网络资源的PeopleRank权值。

所述需要进一步加工的基本因素的处理方法包括:

1)根据网络资源内容,计算出其被转发及与其相似的网络资源的数量数据,并依据该数据计算该网络资源的相似内容数量权值。

2)根据网络资源之间的推荐或关联关系,并基于以下特性计算该网络资源的关联及推荐关系因素:(1)一个网络资源被他人引用的越多,则越有价值;(2)被价值高的网络资源所引用的资源,其价值也高。关联及推荐关系因素通常以某种迭代计算算法实现。

3)根据该网络资源作者的相关网络资源经迭代计算,确定作者价值,并依据该作者价值确定该网络资源的权值,所述迭代计算通常为正反馈式系统。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奇智软件(北京)有限公司,未经奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710065064.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top