[发明专利]一种网络机器人方法在审

专利信息
申请号: 201210491376.8 申请日: 2012-11-27
公开(公告)号: CN103838791A 公开(公告)日: 2014-06-04
发明(设计)人: 刘立堂;苏晓华 申请(专利权)人: 大连灵动科技发展有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 大连东方专利代理有限责任公司 21212 代理人: 曲永祚
地址: 116023 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种网络机器人方法,包括如下步骤:设计网络机器人规范、设计深度优先搜索策略或者广度优先搜索策略、设计预防网络陷阱对策、设计均衡访问策略、超链接提取和设计提高采集效率技术;所述设计提高采集效率的方法包括采用多线程技术、采用链长比技术、限制查询跳转和限制文档的长度;本发明提供的一种网络机器人方法,采用网络机器人技术爬取网页或采集数据覆盖范围广,采集迅速,省时省力,这种技术能够有效的避免因网络上的超链接构成的环路而导致的网络陷阱,而且采用均衡访问技术,不会产生因为占用大量网络资源而加重WWW服务器的负载负担。
搜索关键词: 一种 网络 机器人 方法
【主权项】:
一种网络机器人方法,其特征在于包括如下步骤:A、设计网络机器人规范;A1、制定机器人不包括的项目标准:在服务器上创建一个机器人文本文件,该文本文件中说明网站不能访问的链接和网站拒绝访问的机器人;A2、制定机器人META标签;网站管理员和个人用户通过META标签限制机器人程序对网页的访问权限;B、设计深度优先搜索策略或者广度优先搜索策略;根据机器人对URL列表存取的方式决定搜索策略,且当将待搜索队列看成队列时,新的超链接从尾加入从头取出构成广度优先遍历;当将待搜索队列看成堆栈时,新的超链接从头加入从头取出则构成深度优先遍历;C、设计预防网络陷阱对策;在访问新URL前与待搜索和已搜索URL对列列表中的URL进行比较,该比较为URL对象间的比较,将URL对列列表中不包含的URL添加到待搜索的URL列表,以避免掉进网络陷阱;D、设计均衡访问策略;设定访问一个Web服务器的线程最大数并采用等待方式限制机器人程序或进程对特定服务器和网段的访问频率;每当机器人程序或进程从一个Web站点取得一个文档后,该机器人程序或进程将等待一定的间隔再对该Web站点进行新的访问,根据站点处理能力和网络通讯能力确定等待时间的长短,将下一次访问该Web站点的时间T1为当前时间T2加上访问该Web站点所需的时间,访问该Web站点所需的时间取值为网络传输时间T3乘以已设定系数;E、超链接提取;获取HTML文档的超链接URL地址后,根据网页超链接URL的绝对地址与相对地址区别,对其中的相对URL地址在送交待搜索队列前结合当前网页地址将其转化为绝对地址;机器人程序在获取URL链接的同时,对得到的URL链接所对应的Web源文档进行数据采集以便获取Web链接和数据,并将TCP协议传输的字节流转换为字符流;F、设计提高采集效率技术;F1、采用多线程技术;F2、采用链长比技术;设定链长比为超链接数与文档长度的比值;提取链长比小于某一门限值的页面,并且忽略页面中的目录页采集其中的内容页;F3、限制查询跳转;当查找到新URL时判断该URL的主机地址是否与当前正在搜索的主机地址相同,若相同则将该URL加入到当前待搜索队列中,否则将其加入到主待搜索队列中;若当前待搜索队列为空则从主待搜索队列中取出一个新URL加入到当前待搜索队列中;F4、限制文档的长度;设定文档最小长度的阈值,对大于该阈值的文档进行数据采集,放弃低于文档长度低于该阈值的文档。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连灵动科技发展有限公司,未经大连灵动科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210491376.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top