[发明专利]基于快速相似度的PageRank方法有效

专利信息
申请号: 201110158710.3 申请日: 2011-06-14
公开(公告)号: CN102253971A 公开(公告)日: 2011-11-23
发明(设计)人: 毕硕本;马燕;乔文文;汪大 申请(专利权)人: 南京信息工程大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 许方
地址: 210044 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种基于快速相似度的PageRank方法。该方法将PageRank算法和改进的汉明距离相似度算法相结合,提出一种新的网页排序方法。PageRank算法是一种单纯研究网页链接的算法,容易出现主题漂移的问题。针对这一问题本算法提出了两点改进:①结合汉明距离相似度算法,计算检索词和网页文本的相似度,提高搜索的查准率。②为提高搜索的查全率,需改进汉明距离相似度算法,增加搜索检索词的同义词,扩大搜索的范围。根据上述两点,得到快速相似度PageRank算法的计算公式,从查全率和查准率两方面满足搜索的要求。
搜索关键词: 基于 快速 相似 pagerank 方法
【主权项】:
1.一种基于快速相似度的PageRank方法,其特征在于具体构建方法如下:步骤10从网络中获取各个网页的链接关系;步骤20将链接关系进行预处理,计算得到网页的入度和出度;解析网页,获取网页的标题。再将网页网址、入度、出度和网页标题建立索引;步骤30根据索引库中的内容,计算各网页的PageRank值,计算公式为:PR(u)=dΣvB(u)PR(v)/N(v)+(1-d)]]>式中参数:u是一个网页,B(u)是指向网页u的网页集合,N(v)是指网页v向外的链接数,d是衰减因子,通常取0.85;步骤40根据输入的检索词,计算网页标题与检索词的相似度:Sim(U,Q)=1-Σk=1nxkyk/n]]>式中参数:xk,yk分别表示网页U的标题对应的码字和查寻式Q对应的码字中第k位的分量,它们的值为0或1;0表示在某位置上U不存在与检索词或检索词的同义词,1则表示存在;n为码子的长度,为模2加(异或)运算;步骤50根据上述的计算可以得到快速相似度PageRank的计算公式:rel(U,Q)=PR(U)·Sim(U,Q)·(1-s2n)]]>式中参数:rel(U,Q)是快速相似度PageRank值;PR(U)是网页U的PageRank值;Sim(U,Q)是网页标题和检索词的相似度值;s是标记U中存在同义词的个数;n为网页标题码字的长度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201110158710.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top