[发明专利]一种环保信息网格抓取方法在审
| 申请号: | 201410834149.X | 申请日: | 2014-12-26 |
| 公开(公告)号: | CN104462566A | 公开(公告)日: | 2015-03-25 |
| 发明(设计)人: | 姚新;王德平;刘海英;李淼泉;汪玉峰 | 申请(专利权)人: | 中科宇图天下科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 于国富 |
| 地址: | 100101 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 环保 信息 网格 抓取 方法 | ||
技术领域
本发明涉及网络数据抓取技术领域,尤其涉及一种环保信息网格抓取方法。
背景技术
近年来,关于爬虫技术、数据抓取的研究日益增多,涉及的技术也大不相同,各有千秋:有基于PowerBuilder的,有基于XML的,有基于Google Maps API的,还有基于Python等等。
目前关于网络数据抓取的研究更多的集中在金融、电商、微博等行业领域。金融、电商、微博等行业的网络数据具有如下特点:
1)大量使用文本和数值型数据;
2)为了确保实证研究结论具有说服力,一般针对权威站点进行数据采集。如国家有关权威决策与信息发布部门,金融交易所以及国内外知名互联网信息提供商;
3)数据实时性、准确性高,并且金融经济规律常具有一定时效性,为了及时反映市场的状况和经济金融政策的影响,往往需要尽可能包含最新的数据。
因此,现有的网络数据抓取技术,一般是针对文本和数值型数据进行的,而且是针对某些特定的网站进行的,使用范围比较窄,同时,抓取的数据是实时更新的。
与金融、电商、微博等行业领域的网络数据特点不同,环保行业的网络数据类型大多为网格、图像,如某地区、某时间点PM2.5细颗粒物、PM10可吸入颗粒物、CO一氧化碳、NO2二氧化氮、SO2二氧化硫等的气象数据、气象图、卫星图、风速风向、天气预报图;同时,在环保行业进行网络数据抓取时,一般是针对广阔范围的网络数据,比如执法人员移动端上传的数据及图像、环保人士上传的地段实景空气质量数据及图像等;另外,环保行业网格数据多是定期更新,比如,很多地方的环保数据一般都是一天的晚上12点更新。
因此,金融、电商、微博等行业领域的网络数据抓取技术不适用于环保行业网络数据抓取,无法获取到环保信息。
发明内容
本发明的目的在于提供一种环保信息网格抓取方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种环保信息网格抓取方法,包括如下步骤:
S1,判断抓取网站是否有效,如果所述抓取网站有效,则执行S2,如果所述抓取网站无效,则返回提示无效信息;
S2,获取所述抓取网站的内容流,判断所述内容流是否为图片,如果是,则将所述内容流转化成图片,并保存;否则,执行S3;
S3,将所述内容流转化为字符串;
S4,使用正则表达式,将所述字符串进行分解,通过网格数据特征获取网格数据。;
S5,对获取的网格数组数除列数取模存储,循环,直至得到所有的待抓取的环保信息。
进一步地,S5之后,还包括S6,将所述待抓取的环保信息存入关系数据库中。
其中,S1中,所述判断抓取网站是否有效,具体为,根据用户输入的服务器、数据库和抓取网站地址,判断抓取网站的有效性。
优选地,S1中,所述判断抓取网站是否有效,采用如下的方法:通过HTTP连接的GET方法获取来自因特网的响应,判断HTTP定义的状态代码的值是否有效,如果所述HTTP定义的状态代码的值有效,则所述抓取网站有效,否则,无效。
其中,S2中,所述获取所述抓取网站的内容流,具体为,使用GetResponseStream()方法,获取来自服务器的响应的HTTP内容流。
其中,S3中,所述将所述内容流转化成字符串,具体为,将所述内容流初始化为“utf-8”字符编码,获取所述内容流从当前位置到结束位置的字符串。
进一步地,S3和S4之间,还包括步骤,在内存中,创建字符串数组的网格。
优选地,S5中,所述将分解后的所述字符串存入字符串数组的网格中,采用如下方法:
利用网格数组数除以所述网格的列数,取模值得到分解后的所述字符串在所述网格中的单元格的位置,并将所述字符串存入所述单元格中。
优选地,所述待抓取的环保信息为默认的或用户设定的。
进一步地,S2中,还包括步骤,每间隔设定的时间,遍历一次所述抓取网站的数据,判断是否有增量,如果有增量,针对增量,按照S2-S5的方法进行环保信息网格抓取,如果没有增量,则结束;
和/或
判断是否中断,如果中断,则判断中断点,并续抓;如果无中断,则继续。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科宇图天下科技有限公司,未经中科宇图天下科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410834149.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种视频搜索结果展示方法及装置
- 下一篇:跨节点的晚期物化方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





