[发明专利]一种网站内链的部署方法及装置有效
| 申请号: | 201510669926.4 | 申请日: | 2015-10-13 |
| 公开(公告)号: | CN105183919B | 公开(公告)日: | 2018-10-12 |
| 发明(设计)人: | 郭明阳;王路;陈拓;陈敏锐;骆超锋;文帅营;彭东江;杨碧天 | 申请(专利权)人: | 郑州悉知信息科技股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
| 地址: | 450000 河南省郑*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网站 部署 方法 装置 | ||
本申请公开了一种网站内链的部署方法及装置,方法包括:首先根据爬虫日志记录,确定出网站内被爬虫访问的次数超过阈值的目标页面,目标页面属于爬虫比较青睐访问的页面,然后从预置的链接地址存储队列中抽取最新产生的目标数量条的链接地址,其中链接地址存储队列中按照新页面的链接地址产生时间的先后顺序,存储有多条链接地址,而目标数量为目标页面所能够展示的链接地址的条目数,最后将抽取出的目标数量条的链接地址展示在目标页面上。本申请通过确定出爬虫青睐访问的目标页面,进而将最新产生的链接地址展示在目标页面上,使得最新产生的链接地址更加容易被爬虫所抓取,提高了新页面的链接地址的曝光率。
技术领域
本申请涉及互联网技术领域,更具体地说,涉及一种网站内链的部署方法及装置。
背景技术
作为一个互联网网站,需要借助搜索引擎来获取更多的流量及曝光率。网站内每天都会产生大量的新页面,为了提高新页面的曝光率,以及提高搜索引擎的爬虫对新页面的抓取效率,网站需要合理部署新页面的链接地址。
现有技术在对新页面的链接地址进行部署时,一般是随机性的将各个新页面的链接地址部署在网站内的各个页面中。但是,由于搜索引擎会给网站内各个网页赋予一定的权威值,权威值代表了网页的重要度。爬虫在进行页面访问时,比较青睐于访问权威值较大的页面,也即爬虫对不同页面的访问频繁度不同。这就造成部署在权威值低的页面中的新页面的链接地址有可能一直不会被爬虫抓取,从而造成新页面无法进行曝光。
发明内容
有鉴于此,本申请提供了一种网站内链的部署方法及装置,用于解决现有网站内链部署方式所存在的部分新页面的链接地址被爬虫抓取率低,造成新页面无法曝光的问题。
为了实现上述目的,现提出的方案如下:
一种网站内链的部署方法,包括:
根据爬虫日志记录,确定网站内被爬虫访问的次数超过阈值的目标页面;
从预置的链接地址存储队列中抽取最新产生的目标数量条的链接地址,所述链接地址存储队列中按照链接地址产生时间的先后顺序,存储有多条链接地址,所述目标数量为所述目标页面所能够展示的链接地址的条目数;
将抽取的目标数量条的链接地址展示在所述目标页面上。
优选地,还包括:
在检测到爬虫访问所述目标页面后,确定爬虫抓取的N条链接地址;
从最新的链接地址存储队列中抽取最新产生的N条链接地址,所述最新的链接地址存储队列为上一次抽取链接地址后的链接地址存储队列;
利用抽取的N条链接地址替换掉所述爬虫抓取的N条链接地址。
优选地,还包括:
确定所述目标页面上,预置时间段内未被爬虫抓取过的X条链接地址;
从最新的链接地址存储队列中抽取最新产生的X条链接地址,所述最新的链接地址存储队列为上一次抽取链接地址后的链接地址存储队列;
利用抽取的X条链接地址替换掉所述未被爬虫抓取过的X条链接地址。
优选地,在所述检测到爬虫访问所述目标页面后,该方法还包括:
记录爬虫的访问记录,该访问记录用于更新所述爬虫日志记录。
优选地,所述目标页面的个数为多个,所述将抽取的目标数量条的链接地址展示在所述目标页面上,包括:
将多个目标页面的集合确定为目标集合;
从所述目标集合中抽取一个被爬虫访问次数最多的目标页面,作为待定目标页面;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州悉知信息科技股份有限公司,未经郑州悉知信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510669926.4/2.html,转载请声明来源钻瓜专利网。





