[发明专利]基于超链接的主题预测算法在审
申请号: | 201611023682.3 | 申请日: | 2016-11-22 |
公开(公告)号: | CN106776722A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 贾海龙 | 申请(专利权)人: | 新乡学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙)11350 | 代理人: | 汤东凤 |
地址: | 陕西省西安*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 超链接 主题 预测 算法 | ||
技术领域
本发明涉及一种搜素引擎算法,尤其涉及一种基于超链接的主题预测算法。
背景技术
搜索引擎在查找能够满足用户请求的网页时,主要考虑两方面的因素:一方面是用户发出的查询与网页内容的内容相似性得分,即网页和查询的相关性,第三章已经就内容相似性计算做了介绍;另一方面就是通过链接分析方法计算获得的得分,即网页的重要性,用户访问网页的过程就是通过点击页面超链接,因此用户的访问方式和超链接包含的主题内容是进行链接分析的关键数据。
随机游走模型和子集传播模型,并分析了传统链接分析算法的主要思想和相互关系。其次,重点分析了经典链接分析算法PageRank的计算方法,发现其在进行特殊链接结构计算时,会出现“链接陷阱”问题,从而导致计算的PageRank值误差很大;在对链接分析基础算法HITS进行分析时,发现其计算的内容向量和链接向量是存在的,但不一定是唯一的,也无法保证其大于零,因此会出现“主题漂移”和排序结果质量差等问题。
发明内容
本发明的目的就在于为了解决上述问题而提供一种基于超链接的主题预测算法。
本发明通过以下技术方案来实现上述目的:
本发明首先假设有网页集合S={1,2,…,N},在此基础上做如下定义:
矩阵H:网页之间链接图对应的链接矩阵;
yn:网页n(n∈S)的内容权值(Authority)
Zn:网页n(n∈S)的链接权值(Hub);
y=(y1,...,yN)T:内容权值向量;
z=(z1,...,zN)T:链接权值向量;
An:所有指向网页n的集合;
Bn:所有被网页n指向的网页集合;
具体算法步骤:
(1)初始化内容权值向量y,使初始化链接权值向量z,使
(2)进行第k步迭代的时候,网页n的内容权值yn由所有指向它的网页集An的Hub值组成,即其矩阵表达式为y=HTz;
(3)在步骤(2)中得到新的内容权值向量y后,网页n的Hub值Zn由它所引用的网页Bn的内容权值组成,即其矩阵表达式为z=Hy;
(4)对步骤(2)和(3)中计算的向量y和z进行单位化,使得
按照以上四个步骤进行循环迭代,直到收敛结束;
为了更深层次的分析HITS算法,将第k步迭代得到的内容向量和链接向量分别记作yk和zk,其中:
初始化为:
根据算法步骤(2)、(3)和(4),可以计算:
yk=φkψkHTHyk-1,k=2,3,.... (5)
zk=ψkφkHHTzk-1,k=1,2,.... (6)
收敛后,得到内容向量和链接向量分别为:
在式(7)中,内容向量y'是矩阵HTH的一个特征向量,链接向量z'是矩阵HHT的一个特征向量,因此为了确定内容向量和链接向量的存在和唯一性,下文对式中HTH和HHT进行分析。因为内容向量对应矩阵HTH,链接向量对应HHT,所以下文将HTH称作内容矩阵,将HHT称作链接矩阵。
本发明的有益效果在于:
本发明是一种基于超链接的主题预测算法,与现有技术相比,本发明提出了超链接主题预测算法,主要思想是在网络爬虫爬取网页之前取出页面的超链接进行主题相关度判断,当相关度大于预设的阈值时才进行爬取。最后,通过实验比较表明,本文提出的超链接预测算法提高了爬虫的工作效率和检索系统的精准度。
具体实施方式
下面对本发明作进一步说明:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新乡学院,未经新乡学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611023682.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种企业网站建设前期准备的方法
- 下一篇:一种弹出层显示方法及装置