[发明专利]一种计算微博用户影响力的方法有效
| 申请号: | 201510600289.5 | 申请日: | 2015-09-18 |
| 公开(公告)号: | CN105205146B | 公开(公告)日: | 2018-10-30 |
| 发明(设计)人: | 刘春阳;徐杰;吴俊杰;赵志云;王卿;张旭;李雄;袁昆 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 赵文利 |
| 地址: | 100029*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种计算微博用户影响力的方法,属于数据挖掘领域,具体步骤如下:一、收集每日的微博流数据;步骤二、服务器将微博流数据平均分发到多个端口;步骤三、对流数据进行特征提取和并行计算;步骤四、将特征存储;步骤五、过滤不关心用户;步骤六、计算用户影响力;步骤七、存储每日每个用户的影响力。优点在于:该影响力的指标增加了平均数、最高数和爆发度,平均数要求用户发布的每条微博的平均影响力都比较高,避免出现微博数大造成转发量或评论量大,最高数和爆发度分别刻画影响力传播的范围和速度,因此,新增加的指标克服以往指标中存在单一总数不能完整刻画用户影响力的缺陷,能够更深入的解释用户影响力高的原因。 | ||
| 搜索关键词: | 一种 计算 用户 影响力 方法 | ||
【主权项】:
1.一种计算微博用户影响力的方法,其特征在于,包括如下步骤:步骤一、收集每日的微博流数据;微博流数据分为原创微博、转发微博和评论微博三类,每条流数据含有1个标识;步骤二、服务器利用传输层ZMQ中的pull‑push方案将每日的微博流数据平均分发到服务器各端口;ZMQ即为ZeroMQ软件包,pull‑push方案为一种消息分发方式;步骤三、对服务器端口接收的流数据进行特征提取和并行计算;具体过程如下:对每条微博流数据,根据标识判断微博流数据属于哪一类,分别进行增量计算:对于原创微博,记录该条微博的uid,mid,粉丝数,发布时间和ip地址,将对该uid的原创微博数自增1,如果ip未曾使用过,则ip地址个数自增1;uid为当前微博的用户id;mid为当前微博的id;对于转发微博,记录该条微博的uid,mid,粉丝数,发布时间,ip地址,root_uid,以及root_mid;将该uid的转发微博数自增1,如果ip未曾使用过,将ip地址个数自增1;将root_uid的root_mid被转发量自增1;将0‑24h按照每15分钟间隔划分为96个区间,将该mid的发布时间映射到96个区间之一;对root_uid相应的区间上的微博转发量自增1,将微博转发量作为微博转发的爆发度;root_uid为被转发用户id;root_mid为被转发微博id;对于评论微博,记录该条微博的uid,mid,发布时间,ip地址,root_uid以及root_mid;并对该uid的微博评论数自增1,如果ip未曾使用过,则将ip地址个数自增1;将root_uid的root_mid微博被评论量自增1;将0‑24h按照每15分钟间隔划分为96个区间,将该mid的发布时间映射到96个区间之一;将root_uid相应的区间上的微博评论量自增1,将微博评论量作为微博评论的爆发度;root_mid为被评论微博id;root_uid为被评论用户id;步骤四、将从每一条流数据中提取得到的特征存储到内存数据库集群redis中,作为用户影响力多维属性特征;用户影响力多维属性特征包括:原创微博数,转发微博数,用户粉丝数和新增粉丝数,原创微博转发的总评论数、平均评论数、最高评论数和爆发度;原创微博评论的总评论数、平均评论数、最高评论数和爆发度;转发微博转发的总评论数、平均评论数、最高评论数和爆发度;转发微博评论的总评论数,平均评论数,最高评论数和爆发度;步骤五、用户自定义过滤规则过滤掉不关心用户;步骤六、利用用户影响力多维属性特征计算用户影响力;用户影响力的具体计算方法如下:用户活跃度d_active为:d_active=0.5×ln(x1+1)+0.3×ln(x2+1)+0.1×ln(x3+1)+0.1×ln(x4+1),x1为原创微博数,x2为转发微博数,x3为用户粉丝数和x4为新增粉丝数;微博影响力d_weibo为:d_weibo=0.3×x5+0.3×x6+0.2×x7+0.2×x8,其中,x5为原创微博转发权重,x6为原创微博评论权重,x7为转发微博转发权重和x8为转发微博评论权重;计算方法如下:x5=0.4×ln(x51+1)+0.2×ln(x52+1)+0.15×ln(x53+1)+0.25×ln(x54+1),x6=0.4×ln(x61+1)+0.2×ln(x62+1)+0.15×ln(x63+1)+0.25×ln(x64+1),x7=0.4×ln(x71+1)+0.2×ln(x72+1)+0.15×ln(x73+1)+0.25×ln(x74+1),x8=0.4×ln(x81+1)+0.2×ln(x82+1)+0.15×ln(x83+1)+0.25×ln(x84+1),x51为原创微博总转发数、x52为原创微博平均转发数、x53为原创微博最高转发数和x54为原创微博被转发的爆发度;x61为原创微博总评论数、x62为原创微博平均评论数、x63为原创微博最高评论数和x64为原创微博被评论的爆发度;x71为转发微博总转发数、x72为转发微博平均转发数、x73为转发微博最高转发数和x74为转发微博被转发的爆发度;x81为转发微博总评论数、x82为转发微博平均评论数、x83为转发微博最高评论数和x84为转发微博被评论的爆发度;用户影响力index为:index=0.2×d_active+0.8×d_weibo,步骤七、计算每日每个用户的影响力,结果存储到集群数据库elasticsearch中并应用。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510600289.5/,转载请声明来源钻瓜专利网。
- 上一篇:电子挡位控制器
- 下一篇:一种数字视频广播播放器





