[发明专利]一种环保信息网格抓取方法在审
| 申请号: | 201410834149.X | 申请日: | 2014-12-26 |
| 公开(公告)号: | CN104462566A | 公开(公告)日: | 2015-03-25 |
| 发明(设计)人: | 姚新;王德平;刘海英;李淼泉;汪玉峰 | 申请(专利权)人: | 中科宇图天下科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 于国富 |
| 地址: | 100101 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 环保 信息 网格 抓取 方法 | ||
1.一种环保信息网格抓取方法,其特征在于,包括如下步骤:
S1,判断抓取网站是否有效,如果所述抓取网站有效,则执行S2,如果所述抓取网站无效,则返回提示无效信息;
S2,获取所述抓取网站的内容流,判断所述内容流是否为图片,如果是,则将所述内容流转化成图片,并保存;否则,执行S3;
S3,将所述内容流转化为字符串;
S4,使用正则表达式,将所述字符串进行分解,通过网格数据特征获取网格数据;
S5,对获取的网格数组数除列数取模存储,循环直至得到所有的待抓取的环保信息。
2.根据权利要求1所述的环保信息网格抓取方法,其特征在于,S5之后,还包括S6,将所述待抓取的环保信息存入关系数据库中。
3.根据权利要求1所述的环保信息网格抓取方法,其特征在于,S1中,所述判断抓取网站是否有效,具体为,根据用户输入的服务器、数据库和抓取网站地址,判断抓取网站的有效性。
4.根据权利要求1所述的环保信息网格抓取方法,其特征在于,S1中,所述判断抓取网站是否有效,采用如下的方法:通过HTTP连接的GET方法获取来自因特网的响应,判断HTTP定义的状态代码的值是否有效,如果所述HTTP定义的状态代码的值有效,则所述抓取网站有效,否则,无效。
5.根据权利要求1所述的环保信息网格抓取方法,其特征在于,S2中,所述获取所述抓取网站的内容流,具体为,使用GetResponseStream()方法,获取来自服务器的响应的HTTP内容流。
6.根据权利要求1所述的环保信息网格抓取方法,其特征在于,S3中,所述将所述内容流转化成字符串,具体为,将所述内容流初始化为“utf-8”字符编码,获取所述内容流从当前位置到结束位置的字符串。
7.根据权利要求1所述的环保信息网格抓取方法,其特征在于,S3和S4之间,还包括步骤,在内存中,创建字符串数组的网格。
8.根据权利要求1所述的环保信息网格抓取方法,其特征在于,S5中,所述对获取的网格数组数除列数取模存储,采用如下方法:
利用网格数组数除以所述网格的列数,取模值得到分解后的所述字符串在所述网格中的单元格的位置,并将所述字符串存入所述单元格中。
9.根据权利要求1所述的环保信息网格抓取方法,其特征在于,所述待抓取的环保信息为默认的或用户设定的。
10.根据权利要求1所述的环保信息网格抓取方法,其特征在于,S2中,还包括步骤,每间隔设定的时间,遍历一次所述抓取网站的数据,判断是否有增量,如果有增量,针对增量,按照S2-S5的方法进行环保信息网格抓取,如果没有增量,则结束;
和/或
判断是否中断,如果中断,则判断中断点,并续抓;如果无中断,则继续。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科宇图天下科技有限公司,未经中科宇图天下科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410834149.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种视频搜索结果展示方法及装置
- 下一篇:跨节点的晚期物化方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





