[发明专利]基于三部图模型的微博热点话题溯源方法有效

专利信息
申请号: 201810040609.X 申请日: 2018-01-16
公开(公告)号: CN108170842B 公开(公告)日: 2021-12-14
发明(设计)人: 肖寒春;于海洋;李艳军;陈迪强 申请(专利权)人: 重庆邮电大学
主分类号: G06F16/901 分类号: G06F16/901;G06F16/958;G06Q50/00
代理公司: 重庆辉腾律师事务所 50215 代理人: 王海军
地址: 400065 重*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及社交网络热点话题分析领域,特别涉及一种基于三部图模型的微博热点话题溯源方法,包括:利用网络爬虫或者各种社交软件提供的应用程序编程接口API对数据进行获取;对单条微博消息进行传播路径模型还原;以单条微博消息的传播路径还原为基础,建立“消息‑路径‑用户”话题三部图;对根据话题三部图计算得到的消息、路径和用户得分序列排序,将排名靠前的N个作为热点话题源点序列;本发明在针对节点自身属性与话题无关性和语义技术的局限性对溯源分析的影响,在三部图中引入HITS排名思想,考虑到消息与用户相互影响关系的同时,改进排序算法,提高算法的准确度。
搜索关键词: 基于 三部 模型 热点话题 溯源 方法
【主权项】:
1.基于三部图模型的微博热点话题溯源方法,其特征在于,包括:

S1、利用网络爬虫或者各种社交软件提供的应用程序编程接口API对数据进行获取;

S2、对单条微博消息进行传播路径模型还原;

S3、以单条微博消息的传播路径还原为基础,建立“消息‑路径‑用户”话题三部图;

S4、对根据话题三部图计算得到的消息、路径和用户得分序列排序,将排名靠前的N个作为热点话题源点序列。

2.根据权利要求1所述的基于三部图模型的微博热点话题溯源方法,其特征在于,所述利用网络爬虫或者各种社交软件提供的应用程序编程接口API对数据进行获取包括:

S11、数据获取,通过新浪微博网页抓取热点话题下参与度较高的多条消息以及消息的参与用户,用户个人信息下的一级转发数目,评论数目,用户粉丝数目以及用户关注数目;

S12、简单的数据清洗,数据清洗包括删除重复数据、整理无效节点等。

3.根据权利要求1所述的基于三部图模型的微博热点话题溯源方法,其特征在于,所述对获取单条微博消息传播路径模型还原包括:

S21、根据获取的消息的传播路径构建传播树模型,考虑到评论用户只是受影响用户而不具备二次传播能力,所以将根节点至每一个转发叶子节点的传播路线看作是一条消息传播路径,则可以得到消息路径集合为

S22、获得用户消息传播带动力,用户的消息传播带动力定义为:

其中,vk,mi表示第i个消息中的用户节点vk,pt表示第t条路径,Ω表示消息M的传播路径数量,drive(vk,mi)是用户的消息传播带动力,表示用户vk下的转发数,表示用户vk下的评论数。

4.根据权利要求1所述的基于三部图模型的微博热点话题溯源方法,其特征在于,所述建立“消息‑路径‑用户”话题三部图包括:

S31、构建“消息‑路径‑用户”话题三部图模型,根据同一用户可能会对不同消息进行转发与评论,使多条消息传播具有重叠,从而构成话题全网络,以此为基础构建话题三部图,具体表示包括:

G=(M∪P∪V,A∪B);

S32、同一个用户可能会同时参与此热点话题下不同消息,定义用户话题传播带动力为:

S33、引进超文本话题搜索HITS排名思想,使用循环迭代打分机制对话题三部图中关键元素进行挖掘;

其中,G表示话题三步图模型,M为消息集合,P为消息传播路径集合,V为参与用户集合,A为消息‑路径之间的权值矩阵,B为路径‑用户之间的权值矩阵,drive(vk,mi)为用户的消息传播带动力,vk,mi表示第i个消息中的用户节点vk

5.根据权利要求4所述的基于三部图模型的微博热点话题溯源方法,其特征在于,步骤S33中使用循环迭代打分机制对话题三部图中关键元素进行挖掘包括:

S331、计算消息初始评分向量X(0)、路径初始评分向量Y(0)和用户初始评分向量W(0)

S332、计算消息‑路径之间的权值矩阵和路径‑用户之间的权值矩阵;

S333、使用循环迭代打分机制对三部图中的消息集合、路径集合、用户集合的分值向量进行更新,其中循环迭代打分机制包括正向打分过程和反向打分过程。

6.根据权利要求5所述的基于三部图模型的微博热点话题溯源方法,其特征在于,步骤S331中消息初始评分向量X(0)、路径初始评分向量Y(0)和用户初始评分向量W(0)的计算包括:

其中,αi表示的是消息传播的广度,即消息Mi所对应的有效路径数量;βj表示的是路径pj的对应的节点vk的数目,γk表示的是用户节点vk的话题传播带动力,上标T表示转置矩阵。

7.根据权利要求4所述的基于三部图模型的微博热点话题溯源方法,其特征在于,所述消息‑路径之间的权值矩阵表示包括:

消息‑路径权值矩阵为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810040609.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

tel code back_top