[发明专利]基于快速相似度的PageRank方法有效
申请号: | 201110158710.3 | 申请日: | 2011-06-14 |
公开(公告)号: | CN102253971A | 公开(公告)日: | 2011-11-23 |
发明(设计)人: | 毕硕本;马燕;乔文文;汪大 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 许方 |
地址: | 210044 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 快速 相似 pagerank 方法 | ||
技术领域
本发明是基于快速相似度的PageRank方法,属于Web结构挖掘和信息检索领域。相关知识包括:计算机技术、数据库技术、统计学、编码理论等。
背景技术
PageRank算法是由S.Brin、L.Page等在1998年提出的,是一种以网络中的链接关系为研究对象的网页分级算法,其作用是将最重要的网页优先显示给用户,以尽可能的满足用户的搜索需求。Google搜索引擎采用的就是将复杂文本匹配算法和PageRank算法相结合的技术。通过PageRank算法在Google中的成功应用,足以证明,该算法运用到搜索引擎中是非常有效的。PageRank算法可以迭代计算出每个网页的PageRank值,PageRank值的高低代表了网页在网络中权威性,值越高则权威性最高,在搜索结果中网页出现的位置就越靠前。
汉明距离相似度算法[1]是由张焕炯、王国胜和钟义信在2001年提出的,它借助编码理论中汉明距离的概念,通过求文本与查询式之间的汉明距离来表征文本的相似度,是一种快速有效的相似度计算方法。
目前许多学者在改善PageRank算法主题漂移现象的过程中,绝大部分是将向量空间相似度算法和PageRank算法相结合。然而,向量空间模型算法具有大量的乘法运算,会进一步加剧算法的复杂性,降低可应用性。本发明将计算迅速的汉明距离相似文本算法与PageRank结合,从搜索的查全率和查准率两方面改进。
参考文献
张焕炯,王国胜,钟义信.基于汉明距离的文本相似度计算[J].计算机工程与应用,2001,19:21-22.
L.Page,S.Brin,etc.The PageRank Citation Ranking:Bringing Order to the Web.http://www-diglib.stanford.edu/diglib/pub/,1998.
韩洪光.搜索引擎分析-基于PageRank算法的研究与改进[D].北京交通大学,2008.
袁瑞红.基于语义相似度的Web结构挖掘算法研究及实现[D].南京理工大学,2009.
徐家树,刑立新,覃征.超链接文本相关度的PageRank算法[J].哈尔滨工业大学学报,2009,41(1):223-225.
袁津生,赵传刚等.搜索引擎与信息检索教程[M].中国水利水电出版社,2008.
段淮川,胡平.基于主题特征和时间因子的改进PageRank算法[J].计算机工程与设计,2010,4(31):866-868.
王钟斐,王彪.基于锚文本相似度的PageRank改进算法[J].计算机工程.2010,24(36):258-260.
发明内容
本发明的目的是通过改进PageRank算法,使得在进行信息搜索的过程中提高搜索的查准率和查全率。将汉明距离相似度算法和PageRank算法相结合以改善原有PageRank算法主题漂移的现象。为提高搜索的查全率,可以增加搜索的范围即增加搜索检索词的同义词,在计算相似度时需要改进汉明距离相似度计算,以达到提高查全率的同时保证查准率。
本发明为实现上述目的,采用的技术方法如下:
1)增加同义词检索:当用户输入检索词或检索语句后,首先可将检索词进行分词、去停用词等处理,其次根据得到的各个词,查找它们同义词,然后在网络中匹配包含检索词和它们同义词的网页。
2)增加相似度计算:将汉明距离相似度计算引入PageRank算法,由于增加了同义词检索的过程,需要在汉明距离相似度计算的过程中增加同义词匹配,而且需要严格区分检索词和检索词的同义词,使其具有不同的参数。
3)按照快速相似度PageRank值的倒序显示包含检索词和它们同义词的网页。
具体包括如下步骤:
步骤10从网络中获取各个网页的链接关系。
步骤20将链接关系进行预处理,计算得到网页的入度和出度;解析网页,获取网页的标题。再将网页网址、入度、出度和网页标题建立索引;
步骤30根据索引库中的内容,计算各网页的PageRank值,计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110158710.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:地基平台与框架钢缆联合稳固的立式多层风力发电系统
- 下一篇:新型进气歧管