[发明专利]微博信息的获取方法及装置无效
| 申请号: | 201310053500.7 | 申请日: | 2013-02-18 |
| 公开(公告)号: | CN103150353A | 公开(公告)日: | 2013-06-12 |
| 发明(设计)人: | 张爱琦;张恒;崔世起;杨青 | 申请(专利权)人: | 人民搜索网络股份公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 吴贵明;张永明 |
| 地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 信息 获取 方法 装置 | ||
技术领域
本发明涉及互联网领域,具体而言,涉及一种微博信息的获取方法及装置。
背景技术
自微博面世以来,短小精炼的140字信息吸引了大量的互联网用户,使得微博平台成为热点事件产生和信息传播的重要场所。如何制定出实用有效的微博爬取策略,在有限的资源内,从微博平台中及时获取高质量信息,成为亟待解决的问题。
目前,各大微博平台均制定了微博应用接口以供各应用方调用,从而获取微博信息。但是,基于平台维护成本以及信息保留性等方面的原因,各大平台对微博信息的爬取均设置了访问次数和频率等限制,并且爬虫自身的爬取能力也有限,因此需要制定完善的调度策略,在有限的资源内,尽可能的获取有用的信息,均衡收入与产出,以达到最大收益。
发明内容
本发明提供了一种微博信息的获取方法及装置,以至少解决相关技术中所采取的调度策略在现有的网络资源中获取的微博信息有限的问题。
根据本发明的一个方面,提供了一种微博信息的获取方法。
根据本发明的微博信息的获取方法包括:估测用户再次发布微博的时间;确定用户的影响力,其中,影响力是根据用户的知名度、用户的被关注度以及除用户之外的其余用户对用户发布微博的认可度进行综合评估获得的;采用时间和影响力计算对用户的第一调度周期;根据第一调度周期和预设的限制访问用户发布的微博信息的次数和/或频率确定对用户的第二调度周期,其中,第二调度周期用于获取微博信息。
优选地,估测用户再次发布微博的时间包括:根据用户发布微博的历史数据信息、用户发布的微博所关注的事件的持续时间以及用户发布微博的频率变化获取用户发布微博的周期;对周期进行归一化处理,估测用户再次发布微博的时间。
优选地,在对周期进行归一化处理之前,还包括:根据用户已经发布的微博数目和已经记录的用户已经发布的微博信息调整周期。
优选地,确定影响力包括:采用第一人数和第二人数计算被关注度,其中,第一人数为关注用户的人数,第二人数为用户关注的其余用户的人数;根据其余用户发布的微博信息中提及用户的次数计算知名度;根据用户已经发布的多条微博中被其余用户转发的微博数目和用户发布的每条微博被其余用户转发的次数计算认可度;通过对被关注度、知名度以及认可度进行加权处理,确定影响力。
优选地,根据第一调度周期和预设的限制访问用户发布的微博信息的次数和/或频率确定第二调度周期包括:根据预设的限制访问用户发布的微博信息的次数和/或频率获取与第一调度周期对应的调度级别;按照获取到的调度级别确定第二调度周期。
根据本发明的另一方面,提供了一种微博信息的获取装置。
根据本发明的微博信息的获取装置包括:估测模块,用于估测用户再次发布微博的时间;第一确定模块,用于确定用户的影响力,其中,影响力是根据用户的知名度、用户的被关注度以及除用户之外的其余用户对用户发布微博的认可度进行综合评估获得的;计算模块,用于采用时间和影响力计算对用户的第一调度周期;第二确定模块,用于根据第一调度周期和预设的限制访问用户发布的微博信息的次数和/或频率确定对用户的第二调度周期,其中,第二调度周期用于获取微博信息。
优选地,估测模块包括:第一获取单元,用于根据用户发布微博的历史数据信息、用户发布的微博所关注的事件的持续时间以及用户发布微博的频率变化获取用户发布微博的周期;估测单元,用于对周期进行归一化处理,估测用户再次发布微博的时间。
优选地,估测模块还包括:调整单元,用于根据用户已经发布的微博数目和已经记录的用户已经发布的微博信息调整周期。
优选地,第一确定模块包括:第一计算单元,用于采用第一人数和第二人数计算被关注度,其中,第一人数为关注用户的人数,第二人数为用户关注的其余用户的人数;第二计算单元,用于根据其余用户发布的微博信息中提及用户的次数计算知名度;第三计算单元,用于根据用户已经发布的多条微博中被其余用户转发的微博数目和用户发布的每条微博被其余用户转发的次数计算认可度;第一确定单元,用于通过对被关注度、知名度以及认可度进行加权处理,确定影响力。
优选地,第二确定模块包括:第二获取单元,用于根据预设的限制访问用户发布的微博信息的次数和/或频率获取与第一调度周期对应的调度级别;第二确定单元,用于按照获取到的调度级别确定第二调度周期。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人民搜索网络股份公司,未经人民搜索网络股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310053500.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:银行后台系统模糊搜索的方法及设备
- 下一篇:一种构建关系网络的方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





