[发明专利]一种基于社会媒体用户动态行为的微博主题挖掘方法有效
申请号: | 201810624731.1 | 申请日: | 2018-06-16 |
公开(公告)号: | CN109033069B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 贺瑞芳;张雪菲;赵文丽;朱永凯;黄静 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘子文 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 社会 媒体 用户 动态 行为 主题 挖掘 方法 | ||
1.一种基于社会媒体用户动态行为的微博主题挖掘方法,其特征在于,包括以下步骤:
(1)构建用户对话网络
将一个用户看作对话网络G中的一个节点v,同时将该用户所有发表过的微博聚集成一个文档Mv=(w1,w2,…,wn),其中wi(i=1,2,3…n)表示Mv的第i个单词,n为文档Mv的词语个数;文档Mv作为该用户所指向节点v的文本信息;若节点v代表的用户转发过对话网络G中节点u代表的用户发表过的微博,则将节点u和v相连,以此操作构建出用户对话网络G=(V,E,T),其中V为对话网络G中节点的集合,是对话网络G中边的集合,T代表了节点附带的文本信息;
(2)动态交互建模
将每个节点v表示为基于结构表示v(s)和基于文本表示v(t)的两部分拼接;即节点v的表示为(v属于),其中表示拼接符号,d为节点表示v的维度;
基于结构表示v(s):采用神经网络语言模型将基于结构表示v(s)看作待学习的参数,为了最大化一个节点与其邻居共现的概率,通过最小化公式(1)学习基于结构表示v(s);
公式(1)中Ls为为了学习基于结构表示v(s)的损失函数值,表示第i个节点的基于结构的表示,表示第(i+j)个节点的基于结构的表示,窗口大小为k,条件概率的形式化见公式(2)
基于文本表示v(t):通过相互注意力机制学习得到基于本文表示v(t),相互注意力机制利用池化操作挖掘节点对的主题信息,给定一个节点v的文本信息Mv,将其中每个词语替换为相应的词嵌入从而得到文本表示序列Sv=(w1,w2,…,wm),其中d′表示词嵌入的维度,m表示Sv中词语的个数,对于给定文本表示序列Sv,利用卷积操作对其进行编码,见公式(3)
xi=C·(Sv)i:i+l-1+b (3)
公式(3)表示卷积矩阵对Sv在窗口大小为l的第i个窗口进行卷积操作,其中b为偏置向量,对于文本表示序列Su进行同样的卷积操作,卷积操作之后得到矩阵和m和n分别是文本表示序列Su和Sv的长度,作为相互注意力机制的输入;相互注意力机制通过公式(4)计算关联矩阵
F=relu(PTAQ) (4)
其中矩阵是相互注意力机制中待学习的参数,采用relu作为激活函数,关联矩阵F的元素Fi,j表示矩阵P的第i列向量P·i和矩阵Q的第j列向量Q·j之间的关联得分,之后分别沿着横向和纵向对关联矩阵F进行池化操作,形式化分别为公式(5)(6),采用平均池化操作:
公式(5)中为矩阵F的第i行第1列元素Fi,1、第i行第2列元素Fi,2直至第i行第n列元素Fi,n的平均值;公式(6)中为矩阵F的第1行第j列元素F1,j,第2行第j列元素F2,j直至第m行第j列元素Fm,j的平均值;经平均池化后,产生矩阵P和Q各自对应的池化向量和之后利用归一化指数函数将池化向量g(p)和g(q)概率化,分别得到向量a(p)和a(q),向量a(p)的第i个元素计算见公式(7);
公式(7)中是池化向量g(p)的第t个元素;
通过公式(8)、(9)计算分别得到节点u和v的基于文本表示u(t)和v(t);
u(t)=Pa(p) (8)
v(t)=Qa(q) (9)
为获得基于文本表示,通过最小化目标函数公式(10)
Lt(e)=αlogp(v(t)|u(t))+βlogp(v(t)|u(s))+γlogp(v(s)|u(t)) (10)
公式(10)中Lt(e)表示为了学习基于文本表示的损失函数值,α表示节点u基于文本表示u(t)对节点v基于文本表示v(t)的影响系数,β表示节点u基于结构表示u(s)对节点v基于文本表示v(t)影响系数,γ表示节点u基于文本表示u(t)对节点v基于结构表示v(s)影响系数;由于节点v代表用户转发或者回复了节点u所代表的用户,即u是原因v是结果,因此公式(10)计算节点u的表示对节点v的表示产生的影响,公式(10)中的条件概率利用公式(2)进行计算;
将节点u的节点表示u和节点v的节点表示v拼接得到边表示为
(3)用户注意力建模
边表示是由该条边上的两个节点表示拼接而来且一个节点代表一个用户,故用户对话题的影响力转化为利用注意力机制对该用户所指代的节点表示进行打分,因此利用归一化指数函数进行打分得到用户注意力向量a(e)的第i个元素计算见公式(11)
公式(11)中ei是边表示e的第i个元素,et是边表示e的第t个元素;
为将同一条边上的节点对主题信息及用户对主题影响力相结合,将边表示e和用户注意力向量a(e)进行点对点相乘,该操作激活边表示e使其成为交互感知态,从而得到交互感知边表示ia,形式化见公式(12)
公式(12)中e1、e2、e2d为分别为边表示e的第1,2,2d个元素,为分别为用户注意力向量a(e)的第1,2,2d个元素;
(4)主题生成
采用神经变分推理推断文档-主题分布以及主题-词语分布φw=(p(w|t1),p(w|t2),…,p(w|tK)),其中ti表示第i个主题,表示一个文档,w表示一个词语,表示文档属于第i个主题的概率大小,p(w|ti)(i=1,2,..,K)表示词语w属于第i个主题的概率大小;
文档-主题分布:给定交互感知边表示ia,首先将其映射至隐空间henc中;
henc=relu(W(ih)ia+b(ih)) (13)
其中W(ih)和b(ih)均是编码器的参数,将relu函数作为激活函数,假设交互感知边表示ia的先验分布和后验分布为高斯分布;高斯分布均值和方差通过线性变换获得,见公式(14)(15)
其中W(hμ)、W(hσ)、b(hμ)、b(hσ)为编码器的参数;
潜在语义向量通过重参数化得到,形式化见公式(16);
其中先验分布∈是均值为μ0,方差为的高斯分布;文本设定超参数μ0=0和利用归一化指数函数将潜在语义向量概率化从而得到文档-主题分布形式化和公式(7)相同;
主题-词语分布:根据公式(17)计算条件概率
故文本中将主题-词语分布φw看作解码器的参数,见公式(18)
之后通过解码器重构交互感知边表示,新的交互感知边表示i′计算如公式(19),其中W(hi)和b(hi)均是解码器的参数,
i′=relu(W(hi)hdec+b(hi)) (19)
对于主题生成,该部分的目标函数为公式(20)
公式(20)中利用KL散度衡量变分分布q(θ,z|ia)和真实后验分布接近程度,其中表示为了学习文档-主题分布和主题-词语分布的损失函数值;
通过最小化整体目标函数公式(21)学习参数,以挖掘微博潜在主题
L为整体目标函数的损失函数值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810624731.1/1.html,转载请声明来源钻瓜专利网。