[发明专利]舆情大数据处理方法在审
| 申请号: | 201710455962.X | 申请日: | 2017-06-16 |
| 公开(公告)号: | CN107273498A | 公开(公告)日: | 2017-10-20 |
| 发明(设计)人: | 张鹏 | 申请(专利权)人: | 成都布林特信息技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
| 代理公司: | 北京天奇智新知识产权代理有限公司11340 | 代理人: | 杨春 |
| 地址: | 610000 四川省*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 舆情 数据处理 方法 | ||
1.一种舆情大数据处理方法,用于在分布式数据采集架构中对网络舆情数据进行爬取,其特征在于,包括:
控制节点协调多个爬取节点的爬取事务;
爬取节点分别进行网页爬取,将获取的舆情数据存储在云文件系统中。
2.根据权利要求1所述的方法,其特征在于,所述控制节点启动各个爬取节点、事务的分发、管理爬取节点状态、管理URL以及爬取节点。
3.根据权利要求1所述的方法,其特征在于,所述控制节点根据自身的配置信息获取已部署爬取节点的数量,以远程登录的方式启动爬取节点。
4.根据权利要求1所述的方法,其特征在于,所述控制节点初始化事务分发时,向各个爬取节点发送爬取事务,控制节点首先探测各个爬取节点的连通性;将物理上无法连通的主机的信息从数据库中删除,然后进入事务分发阶段;当爬取节点返回URL时,控制节点再给请求的爬取节点发送事务;爬取过程中对于从爬取的网页抽取的URL则返回给控制节点,由控制节点统一调度;控制节点以固定个数的URL不断向请求事务的爬取节点发送事务。
5.根据权利要求1所述的方法,其特征在于,所述爬取节点启动后向控制节点发送一个就绪状态信息,表明该爬取节点已经做好准备,可以接受爬取事务;控制节点收到爬取节点的就绪信息后,生成一个初始事务,即封装待爬取的网页的URL,并以文件的形式发送到爬取节点某个特定的路径下;如果控制节点发现当前数据库中无数据而且系统中还有爬取节点在爬取,则向该爬取节点发送等待信息,爬取节点根据收到运行信息,到相应的路径下,装载待爬取URL到爬取队列,在当前爬取完之后继续爬取下一次事务;爬取节点若收到等待信息,爬完当前事务后,保持等待状态,直到控制节点将其唤醒;在爬取网页的过程中,抽取出的URL达到预定量后,封装成一个数据文件,爬取节点将其发送到控制节点的特定路径下,控制节点到指定路径下装载数据至数据库中;当爬取节点即将完成本次爬取事务的时候,同样向控制节点发送就绪状态信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都布林特信息技术有限公司,未经成都布林特信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710455962.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种漏洞信息采集方法和装置
- 下一篇:基于垂直搜索引擎的数据抓取方法





