[发明专利]基于优先序列的分布式社交网络信息采集方法及系统有效
| 申请号: | 201510061724.1 | 申请日: | 2015-02-05 |
| 公开(公告)号: | CN104615716B | 公开(公告)日: | 2017-12-01 |
| 发明(设计)人: | 张日崇;黄海飞;李建欣;于伟仁 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
| 代理公司: | 北京同立钧成知识产权代理有限公司11205 | 代理人: | 马爽,黄健 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 优先 序列 分布式 社交 网络 信息 采集 方法 系统 | ||
技术领域
本发明涉及社交网络信息采集领域,尤其涉及一种基于优先序列的分布式社交网络信息采集方法及系统。
背景技术
社交网络的兴起,导致越来越多的用户参与进来。随着社交网络的蓬勃发展,用户在信息发布和传播的过程中起到越来越重要的作用,用户不再只是信息的被动接受者,同时也是信息资源的主动提供者和传播者。无论是国内还是国外,随着社交网络的日益普及,使用社交网络的用户也在逐渐增多。由于用户的积极参与,每天都会产生数以千万计的社交信息,这些信息具有重要的价值,比如它可以帮助我们分析热点事件,分析公共舆论的形成和发展过程等。而如何及时全面地获取这些信息,是我们进行社交网络分析的重要前提。
目前的社交网络信息获取过程主要分为两种:一种是通过网页模拟登录到社交网络平台,通过页面解析的方式获得社交网络信息;另一种方式是利用社交网络开放的API,获取社交网络信息。尽管通过上述手段都能对社交网络信息进行采集,但是,由于社交网络在不同的时间段可能有显著不同的发布量,比如在白天发布的信息量明显要比夜间发布的信息量要高得多,这样就有可能出现单次获取到的信息较少,甚至没有任何信息,导致资源的浪费。
发明内容
本发明提供一种基于优先序列的分布式社交网络信息采集方法及系统,用于解决现有的信息获取方案容易导致资源浪费的问题。
本发明的第一个方面是提供一种基于优先序列的分布式社交网络信息采集方法,包括:
获取本次任务分配的任务列表,所述任务列表中包括各社交网络信息;
根据所述各社交网络信息的发布时间,对所述各社交网络信息进行优先级排序,其中,发布时间越早则优先级越高;
按照第一周期,根据当前所述各社交网络信息的优先级,周期性地进行任务分配。
本发明的另一个方面是提供一种基于优先序列的分布式社交网络信息采集系统,包括:
获取模块,用于获取本次任务分配的任务列表,所述任务列表中包括各社交网络信息;
优先级排序模块,用于根据所述各社交网络信息的发布时间,对所述各社交网络信息进行优先级排序,其中,发布时间越早则优先级越高;
处理模块,用于按照第一周期,根据当前所述各社交网络信息的优先级,周期性地进行任务分配。
本发明提供的基于优先序列的分布式社交网络信息采集方法及系统,对任务列表中的各社交网络信息进行优先级排序,并根据各社交网络信息的优先级进行任务分配,从而能够有效地对任务进行分配,有效提高社交网络信息采集的效率。
附图说明
图1为本发明实施例一提供的基于优先序列的分布式社交网络信息采集方法的流程示意图;
图2为本发明实施例二提供的基于优先序列的分布式社交网络信息采集系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
图1为本发明实施例一提供的基于优先序列的分布式社交网络信息采集方法的流程示意图,如图1所示,所述方法包括:
101、获取本次任务分配的任务列表,所述任务列表中包括各社交网络信息。
目前的社交网络信息获取过程主要分为两种:一种是通过网页模拟登录到社交网络平台,通过页面解析的方式获得具体信息,但这种方式不能在短期内频繁地登录社交网络平台,否则会判定为恶意行为,导致IP或者账号被封的问题;另外,当社交网站的页面发生改动时,就必须修改相应的程序,否则无法获取到正确的信息;此外,因为这种方式是通过解析页面的方式来获取信息,而页面中大部分的信息是与社交网络信息无关的,这样每次都获取整个页面,势必会导致占用较大的网络带宽。
优选的,另一种是利用社交网络开放的API。大多的社交媒体平台采用OAuth授权的方式给予用户调用API的权利,但是在使用token时却有着一定的限制,除了访问次数的限制外,对于不同的API,token也有着不同的限制条件,这就导致在固定的时间内,抓取的资源有限,其中,token是每次调用API的一个必要参数。以新浪微博平台为例,表1展示了新浪微博平台对token使用频率的限制。
表1
具体的,获取token的过程主要包括:社交媒体开发者平台的登录,开发者信息的填写,邮箱验证,应用信息的填写和OAuth授权的过程。本实施例中,上述过程可以自动完成,从而节省时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510061724.1/2.html,转载请声明来源钻瓜专利网。





