[发明专利]舆情大数据处理方法在审
| 申请号: | 201710455962.X | 申请日: | 2017-06-16 |
| 公开(公告)号: | CN107273498A | 公开(公告)日: | 2017-10-20 |
| 发明(设计)人: | 张鹏 | 申请(专利权)人: | 成都布林特信息技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
| 代理公司: | 北京天奇智新知识产权代理有限公司11340 | 代理人: | 杨春 |
| 地址: | 610000 四川省*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 舆情 数据处理 方法 | ||
技术领域
本发明涉及大数据,特别涉及一种舆情大数据处理方法。
背景技术
社交网络中用户是信息的发布者,用户如果对某方面的信息感兴趣,该用户需要做的是同发布这方面信息的用户建立社会网址,构建自己的社交网络,实时的相关信息就会通过社交网络传播到该用户那里。社交网络中传播的信息,例如,在微博中,用户的转发行为引发了微博信息在网络中传播,用于市场营销、广告投放和谣言控制等多个方面。由此可见,信息在社交网络中的传播对帮助用户获取信息起着至关重要的作用。现有技术中的信息传播跟踪方法通常只考虑了比较单一的影响信息传播的因素,方法中虚拟的参数通常是任意指定的,不具备预测信息传播的能力。此外,当给定一个社交网络后,对于如何在社交网络上选取一个指定规模的节点集合以达到影响力最大化的效果方面,已有方法只适用于小型网络,对于大规模的社交网络,只能得到近似的较优结果。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种舆情大数据处理方法,包括:
控制节点协调多个爬取节点的爬取事务;
爬取节点分别进行网页爬取,将获取的舆情数据存储在云文件系统中。
优选地,所述控制节点启动各个爬取节点、事务的分发、管理爬取节点状态、管理URL以及爬取节点。
优选地,所述控制节点根据自身的配置信息获取已部署爬取节点的数量,以远程登录的方式启动爬取节点。
优选地,所述控制节点初始化事务分发时,向各个爬取节点发送爬取事务,控制节点首先探测各个爬取节点的连通性;将物理上无法连通的主机的信息从数据库中删除,然后进入事务分发阶段;当爬取节点返回URL时,控制节点再给请求的爬取节点发送事务;爬取过程中对于从爬取的网页抽取的URL则返回给控制节点,由控制节点统一调度;控制节点以固定个数的URL不断向请求事务的爬取节点发送事务。
优选地,所述爬取节点启动后向控制节点发送一个就绪状态信息,表明该爬取节点已经做好准备,可以接受爬取事务;控制节点收到爬取节点的就绪信息后,生成一个初始事务,即封装待爬取的网页的URL,并以文件的形式发送到爬取节点某个特定的路径下;如果控制节点发现当前数据库中无数据而且系统中还有爬取节点在爬取,则向该爬取节点发送等待信息,爬取节点根据收到运行信息,到相应的路径下,装载待爬取URL到爬取队列,在当前爬取完之后继续爬取下一次事务;爬取节点若收到等待信息,爬完当前事务后,保持等待状态,直到控制节点将其唤醒;在爬取网页的过程中,抽取出的URL达到预定量后,封装成一个数据文件,爬取节点将其发送到控制节点的特定路径下,控制节点到指定路径下装载数据至数据库中;当爬取节点即将完成本次爬取事务的时候,同样向控制节点发送就绪状态信息。
本发明相比现有技术,具有以下优点:
本发明提出了一种舆情大数据处理方法,实现了并行网页爬取,提高采集和存储效率,广泛适用于大规模的社交网络。
附图说明
图1是根据本发明实施例的舆情大数据处理方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
本发明的一方面提供了一种舆情大数据处理方法。图1是根据本发明实施例的舆情大数据处理方法流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都布林特信息技术有限公司,未经成都布林特信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710455962.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种漏洞信息采集方法和装置
- 下一篇:基于垂直搜索引擎的数据抓取方法





