[发明专利]一种环保信息网格抓取方法在审
| 申请号: | 201410834149.X | 申请日: | 2014-12-26 |
| 公开(公告)号: | CN104462566A | 公开(公告)日: | 2015-03-25 |
| 发明(设计)人: | 姚新;王德平;刘海英;李淼泉;汪玉峰 | 申请(专利权)人: | 中科宇图天下科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 于国富 |
| 地址: | 100101 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种环保信息网格抓取方法,涉及网络数据抓取技术领域。本发明实施例中,考虑到环保行业网络数据的自身特点,通过获取网站内容流,并将内容流转化成字符串,再使用正则表达式将字符串进行分解,提取所需的网格字符串,最后将分解的字符串运用算法取模存入数组中,通过循环遍历所有数组,直到获取到待抓取的所有环保网格信息。这样,通过总体抓取-转化-正则分解-特征获取-取模存储,逐步实现对获取的环保网站中复杂信息的逐步细化,从而获取到所需的环保网格信息,为环保行业提供信息数据支撑。 | ||
| 搜索关键词: | 一种 环保 信息 网格 抓取 方法 | ||
【主权项】:
一种环保信息网格抓取方法,其特征在于,包括如下步骤:S1,判断抓取网站是否有效,如果所述抓取网站有效,则执行S2,如果所述抓取网站无效,则返回提示无效信息;S2,获取所述抓取网站的内容流,判断所述内容流是否为图片,如果是,则将所述内容流转化成图片,并保存;否则,执行S3;S3,将所述内容流转化为字符串;S4,使用正则表达式,将所述字符串进行分解,通过网格数据特征获取网格数据;S5,对获取的网格数组数除列数取模存储,循环直至得到所有的待抓取的环保信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科宇图天下科技有限公司,未经中科宇图天下科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410834149.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种视频搜索结果展示方法及装置
- 下一篇:跨节点的晚期物化方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





