[发明专利]基于超链接来源分析的网页排名方法无效
申请号: | 201210428450.1 | 申请日: | 2012-11-01 |
公开(公告)号: | CN102915369A | 公开(公告)日: | 2013-02-06 |
发明(设计)人: | 杨博;李剑楠 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 超链接 来源 分析 网页 排名 方法 | ||
1.一种基于超链接来源分析的网页排名方法,其特征在于,包括如下步骤:
101:计算每个网页的k-近邻集合;
102:根据网页的k-近邻集合,计算每对网页的入链来源相似性;
103:根据网页间入链来源的相似性,计算万维网的超链接权重矩阵;
104:根据超链接权重矩阵,计算各网页的权威性;
105:根据网页的权威性对全部网页排名。
2.根据权利要求1所述的基于超链接来源分析的网页排名方法,其特征在于,该方法采用如下基本原理计算网页的权威性:
指向某网页的入链来源越广泛,说明该网页被认同的程度越高,相应的,其权威性越高;反之,指向某网页的入链来源越单一,说明其被认同的程度越低,甚至存在网页作弊的嫌疑,相应的,其权威性低。
3.根据权利要求1所述的基于超链接来源分析的网页排名方法,其特征在于,按照如下方法表示和计算每个网页的k-近邻集合:
令N表示万维网。其中,V={Vi|1≤i≤n}表示网页集合,vi表示第i个网页,n表示网页总数,E={<vi,vj>1≤i≤n,1≤j≤n}表示超链接集合,<vi,j>表示由网页vi指向网页vj的超链接。
网页v的k-近邻由out(v,k)和in(v,k)两个集合构成,分别定义如下:
out(v,k)={u|u∈V,dist(v,u)≤k}
in(v,k)={u|u∈V,dist(u,v)≤k}
其中,dist(v,u)表示从v到u的最短距离,即,从v到u的最短路径所包含的超链接个数。
对每个网页v,其k-近邻集合out(v,k)和in(v,k)可分别表示为一个长度为的二进制编码B(v,k)=b0b1…bL-1和C(v,k)=c0c1…cL-1,其中分量bi和ci(0≤i≤L-1)取值为0或1。
对每个网页v,其k-近邻集合的编码B(v,k)和C(v,k)按如下方法计算:
301:对每个网页v,为集合out(v,0)分配一个初始的二进制编码B(v,0),其中第i个分量bi以概率0.5L-1取值为1,以概率1-0.5L-1取值为0;
302:对每个网页v,为集合in(v,0)分配一个初始的二进制编码C(v,0),其中第i个分量ci以概率0.5L-1取值为1,以概率1-0.5L-1取值为0;
303:对t从1到k依次执行如下操作:
首先,对每个网页v更新其k-近邻集合out(v,t)的编码B(v,t),具体步骤如下:
B(v,t)←B(v,t-1);
对每个<v,u>∈E依次执行
B(v,t)←B(v,t)∧B(u,t-1);
其次,对每个网页v更新其k-近邻集合in(v,t)的编码C(v,t),具体步骤如下:
C(v,t)←C(v,t-1);
对每个<u,v>∈E依次执行
C(v,t)←C(v,t)∨C(u,t-1)。
上述步骤中,“←”表示“赋值”操作,“∨”表示“按位或”操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210428450.1/1.html,转载请声明来源钻瓜专利网。