[发明专利]一种基于社会媒体用户动态行为的微博主题挖掘方法有效

专利信息
申请号: 201810624731.1 申请日: 2018-06-16
公开(公告)号: CN109033069B 公开(公告)日: 2022-05-17
发明(设计)人: 贺瑞芳;张雪菲;赵文丽;朱永凯;黄静 申请(专利权)人: 天津大学
主分类号: G06F16/9536 分类号: G06F16/9536;G06F40/30;G06N3/04;G06N3/08
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 刘子文
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 社会 媒体 用户 动态 行为 主题 挖掘 方法
【说明书】:

发明公开了一种基于社会媒体用户动态行为的微博主题挖掘方法,包括如下步骤:1)构建用户对话网络;2)利用网络表示学习建模动态交互,得到融合了内容和结构且与其邻居结点相关的用户表示;3)引入注意力机制建模用户对主题的影响力,得到交互感知边表示;4)交互感知边表示作为神经变分推理的输入,从而挖掘一致性更佳的主题。该微博主题挖掘方法通过建模动态交互和用户对主题影响力,得到的微博主题相比于现有模型在相关分数值评价指标上取得更好的表现。

技术领域

本发明涉及自然语言处理以及社会媒体数据挖掘技术领域,具体为一种基于社会媒体用户动态行为的微博主题挖掘方法。

背景技术

社会媒体网站(如新浪微博等)的出现使得互联网上内容的形式大大改变。微博允许用户在其上发布和浏览信息,并具有一些很强的社交属性功能,如转发和回复功能。微博平台上存储着海量的文本数据,并且每天都在以惊人的速度增长。微博文本内容包含了大量的信息,从中挖掘主题信息可以用来进行话题推荐、突发事件检测、精准营销等。目前,文本主题挖掘技术应用于新闻、文章等长文本数据上已经具有了较好的效果。但是,微博文本长度短,通常被限制在140字以下,每条微博信息稀疏以及人们在微博上的用词随意等特点大大地增加了微博文本处理的难度。因此,这要求面向微博的主题挖掘技术需要采用与传统主题挖掘所不同的方法。

目前,微博主题挖掘的相关研究主要包括:(1)利用集聚策略。该方法将短文本按照某种规则集聚成一个伪长文档,降低了短文本的数据稀疏性。如首先将同一作者发表的微博合并为一篇长文档,然后利用三层贝叶斯结构的主题模型挖掘潜在主题;(2)利用词嵌入(word embedding)。该方法利用词嵌入含有丰富语义信息的特点建模主题,在一定程度上解决了短文本缺乏语义信息的问题。为了深层次地理解短文本语义,该方法将短文本看作由词嵌入组成的集合,并假设主题-单词分布为多维高斯分布,之后利用分层贝叶斯模型推断主题;(3) 利用社会网络上下文信息。这类方法引入社会网络结构信息,领用微博所在社会网络中的上下文信息对微博文本内容进行补充,从而发现更多的词语共现特征。

以上方法要么仅对微博文本内容建模要么同时考虑对微博文本内容和社会网络静态结构信息,忽略了社会网络的动态特征。如一个用户与不同的用户交互时可能谈论不同的主题,同时谈论同一主题的用户对这个主题产生的影响也是不同的。这些用户行为对于微博主题挖掘任务提供了有利的线索。

发明内容

本发明的目的是为了克服现有技术中的不足,提供一种基于社会媒体用户动态行为的微博主题挖掘方法,该方法为了挖掘用户动态行为,构建了基于转发和回复关系的用户对话网络,其中节点代表用户,边代表具有转发或者回复关系的用户对。该方法首先利用网络表示学习建模动态用户行为,进而引入注意力机制建模用户对主题的影响力,最后通过神经变分推理输出一致性更佳的微博主题。该方法挖掘的微博主题相比于现有模型在相关分数值 (Coherence Score)评价指标中是最优的。

本发明的目的是通过以下技术方案实现的:

一种基于社会媒体用户动态行为的微博主题挖掘方法,包括如下步骤:

(1)用户对话网络构建

将一个用户看作对话网络G中的一个节点v,同时将该用户所有发表过的微博聚集成一个文档Mv=(w1,w2,...,wn),其中wi(i=1,2,3…n)表示Mv的第i个单词,n为文档Mv的词语个数;文档Mv作为该用户所指向节点v的文本信息;若节点v代表的用户转发过对话网络G中节点u代表的用户发表过的微博,则将节点u和v相连,以此操作构建出用户对话网络 G=(V,E,T),其中V为对话网络G中节点的集合,是对话网络G中边的集合,T 代表了节点附带的文本信息;

(2)动态交互建模

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810624731.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top