[发明专利]基于主动推技术的互联网信息采集方法和装置无效
申请号: | 201110428751.X | 申请日: | 2011-12-19 |
公开(公告)号: | CN102521379A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 刘功申;胡佩华;许阳;王士林;李建华;李生红 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海思微知识产权代理事务所(普通合伙) 31237 | 代理人: | 郑玮 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主动 技术 互联网 信息 采集 方法 装置 | ||
技术领域
本发明涉及信息采集领域,尤其涉及一种基于主动推技术的互联网信息采集方法和装置。
背景技术
随着互联网技术的快速发展,网络上的信息资源日益强大并呈快速增长的趋势,越来越多的人喜欢从网络上获取信息。传统的搜索引擎信息采集方法都是基于爬虫(Spider,Crawl等)程序实现的,在一定的时期内取得了一定的成绩。但是随着网络服务的日益更新,特别是Web2.0,Web3.0,Twitter,Facebook,微博等新型网络服务的推出,传统的信息采集方法已经不能满足时代的需求。
经过对现有技术文献的检索发现,中国专利文献号CN100501746C的专利,公告日期为2009年6月17日,记载了一种“网页抓取方法和网页抓取服务器”,该技术包括:首先接收网页请求;其次判断所请求网页是否抓取过;如果没抓取过,则直接抓取;如果抓取过,则根据两次时间间隔是否达到一定阈值来决定是否重新尝试抓取,达到了则去抓取;最后,根据网页是否更新,决定是否重新抓取。该发明专利技术仍然以传统搜索引擎采集方法为主,主要存在以下:
1、浪费网络资源
传统的信息采集方法需要重复试探或重复采集网络上的信息,以判断网络上的信息是否已经被更新。尽管现在也有技术能够通过时间戳来判断是否更新,以实现查新下载,但大量的网络服务根本不支持这种基于时间戳判断的技术,因此还只能采取复试探或重复采集网络上的信息,造成了网络资源的浪费。
2、实效性差
在面对数量庞大的网络信息时,传统采集技术只能采用轮询的方法访问某个特定采集点,因此,经常需要至少1周以上的时间间隔才能轮询到某些网站的最新信息,因此时效性较差。
3、采集信息不全面
由于动态网页、用户登录等访问权限限制,传统的信息采集技术很难解决信息采集的全面性,因此大量的网络信息无法被采集到。
4、动态数据无法采集
对于论坛、微博、Twitter等新型网络服务,它们的回复数、浏览数等数据可能瞬息变化,因此通过传统的网络采集方法根本不可能采集到这些信息变化过程。
发明内容
为解决现有技术网络信息采集不及时以及采集不全面的问题,本发明实施例提供了一种基于主动推技术的互联网信息采集方法和装置。
一种基于主动推技术的互联网信息采集方法,包括:
数据采集方和数据被采集方协商数据采集协议;
所述数据被采集方按照所述数据采集协议把所述数据被采集方的特定数据主动推送到所述数据采集方;
所述数据采集方接收所述特定数据,并且将所述特定数据进行存储;
其中所述数据采集协议是指所述数据采集方和数据被采集方协商制定的数据提交规则,所述数据采集方是指采集网络信息数据的一方,所述数据被采集方是指提供网络信息数据的一方,所述特定数据是指在两次采集间隔内在数据被采集方上更新过的数据。
一种基于主动推技术的互联网信息采集装置,包括数据采集方和数据被采集方,其中:
所述数据被采集方,用于和所述数据采集方协商数据采集协议,并按照所述数据采集协议把所述数据被采集方的特定数据主动推送到所述数据采集方;
所述数据采集方,用于和所述数据被采集方协商所述数据采集协议,并接收所述数据被采集方推送的特定数据,并且将所述特定数据进行存储;
其中所述数据采集协议是指所述数据采集方和数据被采集方协商制定的数据提交规则,所述数据采集方是指采集网络信息数据的一方,所述数据被采集方是指提供网络信息数据的一方,所述特定数据是指在两次采集间隔内在数据被采集方上更新过的数据。
本发明实施例所提供的基于主动推技术的互联网信息采集方法和装置中,数据被采集方可以主动将特定数据按照协商的数据采集协议推送给数据采集方,实现一个基于主动推技术的互联网信息采集新方法,该方法可以实现在采集网络信息时不浪费带宽资源,并且信息采集比较全面,及时,同时也能采集到特殊数据。
应用本发明实施例所提供网络信息的采集方法装置,数据被采集方可以主动将特定数据按照协商的数据采集协议推送给数据采集方,实现一个基于主动推技术的互联网信息采集新方法,该方法和装置可以保证网络信息采集的及时性和全面性,同时也能采集到特殊数据。
附图说明
图1是本发明实施例网络信息的采集方法的第一流程示意图;
图2是本发明实施例网络信息的采集方法的第二流程示意图;
图3是本发明实施例网络信息的采集方法中数据交互示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110428751.X/2.html,转载请声明来源钻瓜专利网。