[发明专利]一种基于社会媒体用户动态行为的微博主题挖掘方法有效

申请号：	201810624731.1	申请日：	2018-06-16
公开（公告）号：	CN109033069B	公开（公告）日：	2022-05-17
发明（设计）人：	贺瑞芳;张雪菲;赵文丽;朱永凯;黄静	申请（专利权）人：	天津大学
主分类号：	G06F16/9536	分类号：	G06F16/9536;G06F40/30;G06N3/04;G06N3/08
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	刘子文
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于社会媒体用户动态行为主题挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于社会媒体用户动态行为的微博主题挖掘方法，其特征在于，包括以下步骤：

(1)构建用户对话网络

将一个用户看作对话网络G中的一个节点v，同时将该用户所有发表过的微博聚集成一个文档M_v＝(w₁，w₂，…，w_n)，其中w_i(i＝1,2,3…n)表示M_v的第i个单词，n为文档M_v的词语个数；文档M_v作为该用户所指向节点v的文本信息；若节点v代表的用户转发过对话网络G中节点u代表的用户发表过的微博，则将节点u和v相连，以此操作构建出用户对话网络G＝(V，E，T)，其中V为对话网络G中节点的集合，是对话网络G中边的集合，T代表了节点附带的文本信息；

(2)动态交互建模

将每个节点v表示为基于结构表示v^(s)和基于文本表示v^(t)的两部分拼接；即节点v的表示为(v属于)，其中表示拼接符号，d为节点表示v的维度；

基于结构表示v^(s)：采用神经网络语言模型将基于结构表示v^(s)看作待学习的参数，为了最大化一个节点与其邻居共现的概率，通过最小化公式(1)学习基于结构表示v^(s)；

公式(1)中L_s为为了学习基于结构表示v^(s)的损失函数值，表示第i个节点的基于结构的表示，表示第(i+j)个节点的基于结构的表示，窗口大小为k，条件概率的形式化见公式(2)

基于文本表示v^(t)：通过相互注意力机制学习得到基于本文表示v^(t)，相互注意力机制利用池化操作挖掘节点对的主题信息，给定一个节点v的文本信息M_v，将其中每个词语替换为相应的词嵌入从而得到文本表示序列S_v＝(w₁,w₂,…,w_m)，其中d′表示词嵌入的维度，m表示S_v中词语的个数，对于给定文本表示序列S_v，利用卷积操作对其进行编码，见公式(3)

x_i＝C·(S_v)_i:i+l-1+b (3)

公式(3)表示卷积矩阵对S_v在窗口大小为l的第i个窗口进行卷积操作，其中b为偏置向量，对于文本表示序列S_u进行同样的卷积操作，卷积操作之后得到矩阵和m和n分别是文本表示序列S_u和S_v的长度，作为相互注意力机制的输入；相互注意力机制通过公式(4)计算关联矩阵

F＝relu(P^TAQ) (4)

其中矩阵是相互注意力机制中待学习的参数，采用relu作为激活函数，关联矩阵F的元素F_i,j表示矩阵P的第i列向量P_·i和矩阵Q的第j列向量Q_·j之间的关联得分，之后分别沿着横向和纵向对关联矩阵F进行池化操作，形式化分别为公式(5)(6)，采用平均池化操作：

公式(5)中为矩阵F的第i行第1列元素F_i，1、第i行第2列元素F_i，2直至第i行第n列元素F_i，n的平均值；公式(6)中为矩阵F的第1行第j列元素F_1，j，第2行第j列元素F_2，j直至第m行第j列元素F_m，j的平均值；经平均池化后，产生矩阵P和Q各自对应的池化向量和之后利用归一化指数函数将池化向量g^(p)和g^(q)概率化，分别得到向量a^(p)和a^(q)，向量a^(p)的第i个元素计算见公式(7)；

公式(7)中是池化向量g^(p)的第t个元素；

通过公式(8)、(9)计算分别得到节点u和v的基于文本表示u^(t)和v^(t)；

u^(t)＝Pa^(p) (8)

v^(t)＝Qa^(q) (9)

为获得基于文本表示，通过最小化目标函数公式(10)

L_t(e)＝αlogp(v^(t)|u^(t))+βlogp(v^(t)|u^(s))+γlogp(v^(s)|u^(t)) (10)

公式(10)中L_t(e)表示为了学习基于文本表示的损失函数值，α表示节点u基于文本表示u^(t)对节点v基于文本表示v^(t)的影响系数，β表示节点u基于结构表示u^(s)对节点v基于文本表示v^(t)影响系数，γ表示节点u基于文本表示u^(t)对节点v基于结构表示v^(s)影响系数；由于节点v代表用户转发或者回复了节点u所代表的用户，即u是原因v是结果，因此公式(10)计算节点u的表示对节点v的表示产生的影响，公式(10)中的条件概率利用公式(2)进行计算；

将节点u的节点表示u和节点v的节点表示v拼接得到边表示为

(3)用户注意力建模

边表示是由该条边上的两个节点表示拼接而来且一个节点代表一个用户，故用户对话题的影响力转化为利用注意力机制对该用户所指代的节点表示进行打分，因此利用归一化指数函数进行打分得到用户注意力向量a^(e)的第i个元素计算见公式(11)

公式(11)中e_i是边表示e的第i个元素，e_t是边表示e的第t个元素；

为将同一条边上的节点对主题信息及用户对主题影响力相结合，将边表示e和用户注意力向量a^(e)进行点对点相乘，该操作激活边表示e使其成为交互感知态，从而得到交互感知边表示ia，形式化见公式(12)

公式(12)中e₁、e₂、e_2d为分别为边表示e的第1，2，2d个元素，为分别为用户注意力向量a^(e)的第1，2，2d个元素；

(4)主题生成

采用神经变分推理推断文档-主题分布以及主题-词语分布φ_w＝(p(w|t₁)，p(w|t₂)，…，p(w|t_K))，其中t_i表示第i个主题，表示一个文档，w表示一个词语，表示文档属于第i个主题的概率大小，p(w|t_i)(i＝1,2,..,K)表示词语w属于第i个主题的概率大小；

文档-主题分布：给定交互感知边表示ia，首先将其映射至隐空间h_enc中；

h_enc＝relu(W^(ih)ia+b^(ih)) (13)

其中W^(ih)和b^(ih)均是编码器的参数，将relu函数作为激活函数，假设交互感知边表示ia的先验分布和后验分布为高斯分布；高斯分布均值和方差通过线性变换获得，见公式(14)(15)

其中W^(hμ)、W^(hσ)、b^(hμ)、b^(hσ)为编码器的参数；