[发明专利]一种高可用的微博采集平台及其方法在审
申请号: | 201410535111.2 | 申请日: | 2014-10-11 |
公开(公告)号: | CN104375826A | 公开(公告)日: | 2015-02-25 |
发明(设计)人: | 王鹏 | 申请(专利权)人: | 北京中搜网络技术股份有限公司 |
主分类号: | G06F9/44 | 分类号: | G06F9/44;G06F17/30 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100191 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 可用 博采 平台 及其 方法 | ||
1.一种高可用的微博采集平台,其特征在于,所述平台包括采集系统、管理后台和数据处理系统;
所述管理后台、采集系统和数据处理系统依次连接;
所述采集系统包括命令交互模块、处理模块、数据发送模块、ZDP调用模块、OpenAPI调用模块。
2.如权利要求1所述的一种高可用的微博采集平台,其特征在于,所述平台包括分布式登陆模块,通过Gearman对马甲进行多机分布式验证。
3.如权利要求1所述的一种高可用的微博采集平台,其特征在于,所述平台包括邮件发送模块,用于将日志统计信息发送到相关邮件组。
4.一种高可用的微博采集方法,其特征在于,所述方法包括:
(1)启动管理后台;
(2)执行管理后台指令并进行数据采集;
(3)马甲分布式登录和邮件发送。
5.如权利要求4所述的一种高可用的微博采集方法,其特征在于,所述步骤(1)包括
(1.1)对博主数据、应用数据、马甲数据分别进行增加、删除、修改和查询;
(1.2)马甲和应用进行关联;
(1.3)马甲登录验证;
(1.4)管理后台将上述操作拼接成指令形式发至采集后台。
6.如权利要求4所述的一种高可用的微博采集方法,其特征在于,所述步骤(2)包括
(2.1)采集后台以指令的形式接到博主、马甲和应用的相关操作,并将博主、马甲和应用的操作结果写入本地数据文件;
(2.2)采用马甲关注博主,并将数据更新到马甲文件中;
(2.3)授权流程读取马甲本地文件,调用登录模块对马甲进行登录认证;
(2.4)启动微博博文、博主信息和话题获取流程形成一个待下载的URL;
(2.5)将URL作为一个下载任务,提交至下载器,等待返回结果;
(2.6)读取返回结果数据,并将数据按照类型存到对应的类对象中;
(2.7)将解析出来的博主信息、博文和话题数据发送给数据处理。
7.如权利要求6所述的一种高可用的微博采集方法,其特征在于,所述步骤(2.3)包括将认证参数一并写入马甲本地文件,用于授权后的应用调用微博开放API。
8.如权利要求6所述的一种高可用的微博采集方法,其特征在于,所述步骤(2.4)包括,获取一个用于博文、博主信息和话题下载的马甲,判断马甲的调度周期,按照微博开放API的要求,拼接请求参数,参数从马甲文件中读取,API加请求参数形成一个待下载的URL。
9.如权利要求6所述的一种高可用的微博采集方法,其特征在于,所述步骤(2.6)包括得到的返回结果是json格式的,将json数据加载到json容器中,从json容器中按字段读取数据,并将数据按照类型存到对应的类对象中。
10.如权利要求4所述的一种高可用的微博采集方法,其特征在于,所述步骤(3)马甲分布式登录包括采用多机登陆,登录任务分配采用Gearman。
11.如权利要求4所述的一种高可用的微博采集方法,其特征在于,所述步骤(3)邮件发送包括
(3.1)对采集系统采集数据的日志进行统计;
(3.2)对四大微博媒体网站的数据下载次数,下载失败次数,解析成功次数进行计算;
(3.3)生成采集系统的数据采集量报告;
(3.4)启动邮件发送程序,将报告发送给负责人。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中搜网络技术股份有限公司,未经北京中搜网络技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410535111.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:管路的夹持装置
- 下一篇:一种可拆卸自由组合的管夹装置