[发明专利]基于快速相似度的PageRank方法有效

专利信息
申请号: 201110158710.3 申请日: 2011-06-14
公开(公告)号: CN102253971A 公开(公告)日: 2011-11-23
发明(设计)人: 毕硕本;马燕;乔文文;汪大 申请(专利权)人: 南京信息工程大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 许方
地址: 210044 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 快速 相似 pagerank 方法
【说明书】:

技术领域

发明是基于快速相似度的PageRank方法,属于Web结构挖掘和信息检索领域。相关知识包括:计算机技术、数据库技术、统计学、编码理论等。

背景技术

PageRank算法是由S.Brin、L.Page等在1998年提出的,是一种以网络中的链接关系为研究对象的网页分级算法,其作用是将最重要的网页优先显示给用户,以尽可能的满足用户的搜索需求。Google搜索引擎采用的就是将复杂文本匹配算法和PageRank算法相结合的技术。通过PageRank算法在Google中的成功应用,足以证明,该算法运用到搜索引擎中是非常有效的。PageRank算法可以迭代计算出每个网页的PageRank值,PageRank值的高低代表了网页在网络中权威性,值越高则权威性最高,在搜索结果中网页出现的位置就越靠前。

汉明距离相似度算法[1]是由张焕炯、王国胜和钟义信在2001年提出的,它借助编码理论中汉明距离的概念,通过求文本与查询式之间的汉明距离来表征文本的相似度,是一种快速有效的相似度计算方法。

目前许多学者在改善PageRank算法主题漂移现象的过程中,绝大部分是将向量空间相似度算法和PageRank算法相结合。然而,向量空间模型算法具有大量的乘法运算,会进一步加剧算法的复杂性,降低可应用性。本发明将计算迅速的汉明距离相似文本算法与PageRank结合,从搜索的查全率和查准率两方面改进。

参考文献

张焕炯,王国胜,钟义信.基于汉明距离的文本相似度计算[J].计算机工程与应用,2001,19:21-22.

L.Page,S.Brin,etc.The PageRank Citation Ranking:Bringing Order to the Web.http://www-diglib.stanford.edu/diglib/pub/,1998.

韩洪光.搜索引擎分析-基于PageRank算法的研究与改进[D].北京交通大学,2008.

袁瑞红.基于语义相似度的Web结构挖掘算法研究及实现[D].南京理工大学,2009.

徐家树,刑立新,覃征.超链接文本相关度的PageRank算法[J].哈尔滨工业大学学报,2009,41(1):223-225.

袁津生,赵传刚等.搜索引擎与信息检索教程[M].中国水利水电出版社,2008.

段淮川,胡平.基于主题特征和时间因子的改进PageRank算法[J].计算机工程与设计,2010,4(31):866-868.

王钟斐,王彪.基于锚文本相似度的PageRank改进算法[J].计算机工程.2010,24(36):258-260.

发明内容

本发明的目的是通过改进PageRank算法,使得在进行信息搜索的过程中提高搜索的查准率和查全率。将汉明距离相似度算法和PageRank算法相结合以改善原有PageRank算法主题漂移的现象。为提高搜索的查全率,可以增加搜索的范围即增加搜索检索词的同义词,在计算相似度时需要改进汉明距离相似度计算,以达到提高查全率的同时保证查准率。

本发明为实现上述目的,采用的技术方法如下:

1)增加同义词检索:当用户输入检索词或检索语句后,首先可将检索词进行分词、去停用词等处理,其次根据得到的各个词,查找它们同义词,然后在网络中匹配包含检索词和它们同义词的网页。

2)增加相似度计算:将汉明距离相似度计算引入PageRank算法,由于增加了同义词检索的过程,需要在汉明距离相似度计算的过程中增加同义词匹配,而且需要严格区分检索词和检索词的同义词,使其具有不同的参数。

3)按照快速相似度PageRank值的倒序显示包含检索词和它们同义词的网页。

具体包括如下步骤:

步骤10从网络中获取各个网页的链接关系。

步骤20将链接关系进行预处理,计算得到网页的入度和出度;解析网页,获取网页的标题。再将网页网址、入度、出度和网页标题建立索引;

步骤30根据索引库中的内容,计算各网页的PageRank值,计算公式为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110158710.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top