[发明专利]基于快速相似度的PageRank方法有效

申请号：	201110158710.3	申请日：	2011-06-14
公开（公告）号：	CN102253971A	公开（公告）日：	2011-11-23
发明（设计）人：	毕硕本;马燕;乔文文;汪大	申请（专利权）人：	南京信息工程大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	许方
地址：	210044 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开一种基于快速相似度的PageRank方法。该方法将PageRank算法和改进的汉明距离相似度算法相结合，提出一种新的网页排序方法。PageRank算法是一种单纯研究网页链接的算法，容易出现主题漂移的问题。针对这一问题本算法提出了两点改进：①结合汉明距离相似度算法，计算检索词和网页文本的相似度，提高搜索的查准率。②为提高搜索的查全率，需改进汉明距离相似度算法，增加搜索检索词的同义词，扩大搜索的范围。根据上述两点，得到快速相似度PageRank算法的计算公式，从查全率和查准率两方面满足搜索的要求。
搜索关键词：	基于快速相似 pagerank 方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于快速相似度的PageRank方法，其特征在于具体构建方法如下：步骤10从网络中获取各个网页的链接关系；步骤20将链接关系进行预处理，计算得到网页的入度和出度；解析网页，获取网页的标题。再将网页网址、入度、出度和网页标题建立索引；步骤30根据索引库中的内容，计算各网页的PageRank值，计算公式为：PR(u)=dΣv∈B(u)PR(v)/N(v)+(1-d)]]>式中参数：u是一个网页，B(u)是指向网页u的网页集合，N(v)是指网页v向外的链接数，d是衰减因子，通常取0.85；步骤40根据输入的检索词，计算网页标题与检索词的相似度：Sim(U,Q)=1-Σk=1nxk⊕yk/n]]>式中参数：x_k，y_k分别表示网页U的标题对应的码字和查寻式Q对应的码字中第k位的分量，它们的值为0或1；0表示在某位置上U不存在与检索词或检索词的同义词，1则表示存在；n为码子的长度，为模2加(异或)运算；步骤50根据上述的计算可以得到快速相似度PageRank的计算公式：rel(U,Q)=PR(U)·Sim(U,Q)·(1-s2n)]]>式中参数：rel(U，Q)是快速相似度PageRank值；PR(U)是网页U的PageRank值；Sim(U，Q)是网页标题和检索词的相似度值；s是标记U中存在同义词的个数；n为网页标题码字的长度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京信息工程大学，未经南京信息工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201110158710.3/，转载请声明来源钻瓜专利网。

上一篇：地基平台与框架钢缆联合稳固的立式多层风力发电系统
下一篇：新型进气歧管

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于快速相似度的PageRank方法有效

专利文献下载