[发明专利]基于超链接来源分析的网页排名方法无效

专利信息
申请号: 201210428450.1 申请日: 2012-11-01
公开(公告)号: CN102915369A 公开(公告)日: 2013-02-06
发明(设计)人: 杨博;李剑楠 申请(专利权)人: 吉林大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 130012 吉*** 国省代码: 吉林;22
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 超链接 来源 分析 网页 排名 方法
【权利要求书】:

1.一种基于超链接来源分析的网页排名方法,其特征在于,包括如下步骤:

101:计算每个网页的k-近邻集合;

102:根据网页的k-近邻集合,计算每对网页的入链来源相似性;

103:根据网页间入链来源的相似性,计算万维网的超链接权重矩阵;

104:根据超链接权重矩阵,计算各网页的权威性;

105:根据网页的权威性对全部网页排名。

2.根据权利要求1所述的基于超链接来源分析的网页排名方法,其特征在于,该方法采用如下基本原理计算网页的权威性:

指向某网页的入链来源越广泛,说明该网页被认同的程度越高,相应的,其权威性越高;反之,指向某网页的入链来源越单一,说明其被认同的程度越低,甚至存在网页作弊的嫌疑,相应的,其权威性低。

3.根据权利要求1所述的基于超链接来源分析的网页排名方法,其特征在于,按照如下方法表示和计算每个网页的k-近邻集合:

令N表示万维网。其中,V={Vi|1≤i≤n}表示网页集合,vi表示第i个网页,n表示网页总数,E={<vi,vj>1≤i≤n,1≤j≤n}表示超链接集合,<vij>表示由网页vi指向网页vj的超链接。

网页v的k-近邻由out(v,k)和in(v,k)两个集合构成,分别定义如下:

out(v,k)={u|u∈V,dist(v,u)≤k}

in(v,k)={u|u∈V,dist(u,v)≤k}

其中,dist(v,u)表示从v到u的最短距离,即,从v到u的最短路径所包含的超链接个数。

对每个网页v,其k-近邻集合out(v,k)和in(v,k)可分别表示为一个长度为的二进制编码B(v,k)=b0b1…bL-1和C(v,k)=c0c1…cL-1,其中分量bi和ci(0≤i≤L-1)取值为0或1。

对每个网页v,其k-近邻集合的编码B(v,k)和C(v,k)按如下方法计算:

301:对每个网页v,为集合out(v,0)分配一个初始的二进制编码B(v,0),其中第i个分量bi以概率0.5L-1取值为1,以概率1-0.5L-1取值为0;

302:对每个网页v,为集合in(v,0)分配一个初始的二进制编码C(v,0),其中第i个分量ci以概率0.5L-1取值为1,以概率1-0.5L-1取值为0;

303:对t从1到k依次执行如下操作:

首先,对每个网页v更新其k-近邻集合out(v,t)的编码B(v,t),具体步骤如下:

B(v,t)←B(v,t-1);

对每个<v,u>∈E依次执行

B(v,t)←B(v,t)∧B(u,t-1);

其次,对每个网页v更新其k-近邻集合in(v,t)的编码C(v,t),具体步骤如下:

C(v,t)←C(v,t-1);

对每个<u,v>∈E依次执行

C(v,t)←C(v,t)∨C(u,t-1)。

上述步骤中,“←”表示“赋值”操作,“∨”表示“按位或”操作。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210428450.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top