[发明专利]一种用于社交网络社区挖掘的时空LDA模型在审

专利信息
申请号: 201510670779.2 申请日: 2015-10-13
公开(公告)号: CN105354244A 公开(公告)日: 2016-02-24
发明(设计)人: 段炼 申请(专利权)人: 广西师范学院
主分类号: G06F17/30 分类号: G06F17/30;G06Q50/00
代理公司: 成都九鼎天元知识产权代理有限公司 51214 代理人: 陈科恒
地址: 530001 广西壮族*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 社交 网络 社区 挖掘 时空 lda 模型
【说明书】:

技术领域

发明属于舆情监控领域,涉及社交网络用户推荐及社交网络服务推荐,尤其涉及一种用于社交网络社区挖掘的时空LDA模型。

背景技术

近年来,微博已经成为社会舆论、商业营销和城市功能的“传感器”,对微博的研究和应用已广泛渗透进社交拓展和舆情监控等多个领域。所谓社区,是指用户根据小世界特性聚集形成若干群体。研究微博社区的结构特征,能更好理解信息传播模式、用户交互模式群体演化规律,具有重大的学术和应用价值。

当前,较多技术都是基于用户社会关系(如关注对象、好友)和微博消息转接应答(转帖,跟帖、评论)的疏密程度来发现社区,或基于聚类等模型进行网络分割以获取社区,忽略了社区的潜在主题特征,如“体育”、“科技”等这些反映了用户在若干方面的兴趣倾向。

在引入潜在主题进行社区发现的技术中,利用LDA分析Twitter中的用户同质性,挖掘活跃的微博用户群组;或者基于用户间的互访类型和微博主题相似性进行社区发现,计算出用户隶属于某个社区的概率。这些基于微博主题的社区发现方法仅依据某个时段下的主题集中程度发现社区,这时发现的社区结构是静态的,不能体现社区的演变特征。为表达用户的兴趣会随时间推移而变化,也有通过伯努利分布表达用户主题是否受上一个时间戳的用户-社区分布影响,然而伯努利分布的参数是人为设定,无法自适应反映出主题随时间的演变状况。

除了潜在主题之外,地理区域所具有的特定经济文化环境对微博主题具有强烈影响。且由于社会作息模式的影响,不同时间段内用户关注的对象是不同的,从而造成微博主题在不同时间下具有特定的主题分布趋势。在这方面,将用户看做“文本”,将用户的位置签到次数作为文本中的“词汇”,基于主题模型进行用户相似性计算和位置推荐;或者基于用户的时空语义轨迹重叠性进行用户相似性计算。然而,他们都没有考虑微博内容所反映的用户兴趣偏好,仅从时空位置角度衡量用户相似性。

在地理相关的主题模型研究中,研究者大都是采用潜在地理区域的形式表达具有主题相似性的微博聚集区,其区域空间划分方式主要有四种方式:规则格网、辖区(如省界、区界等)、不规则格网和基于概率分布自适应区域划分。由于前述三种方式预先设定好了基本地理单元的边界,难以准确描述跨越多个基本地理单元或同一地理单元内的多个相似主题的微博集聚区域,然而,已有自适应区域划分方法在距离量度上忽略了对潜在地理区域边界的距离限制,容易造成某些潜在地理区域覆盖的空间范围过大,例如采用二维高斯模型表达相似博客主题的潜在地理区域,然而一些潜在地理区域跨越大半个美国,部分潜在地理区域间还相互重叠,不仅造成潜在地理区域内的微博主题分布趋于背景主题分布,无法突出区域“特色”主题分布,抑制了在主题模型中引入空间因素意义,同时,位于多个潜在地理区域重叠范围内的微博主题混淆,不利于微博主题的正确识别;此外,已有方法还需预先设定潜在地理区域数量,无法利用数据自身的特征自适应调整潜在地理区域范围和数量,也没有顾及用户对地理区域的选择偏好。

发明内容

本发明的发明目的在于针对现有技术中存在的社交网络社团识别率不高,没有顾及用户对地理区域的选择偏好等问题,提供一种用于社交网络社区挖掘的时空LDA模型。

为了实现上述目的,本发明采用的技术方案如下:

一种用于社交网络社区挖掘的时空LDA模型,包括以下步骤:

(1)建立微博要素的表达式:用于对微博进行概念模型的建模,其中表达式为:di=(W,t,l,r,u,c),其中W表示该微博词袋,包含于词汇总表V={w1,w2,…,w|V|},w1,w2,…,w|V|分别表示每个不同的词汇,t表示微博发布时间,l表示微博发布的地理位置,r表示微博所在潜在地理区域,u表示微博用户,c代表用户所在社区;

(2)对微博词汇制约的数学建模:用于描述不同空间、社区对微博词汇的影响力大小,包括空间和社区对微博词汇制约的数学建模,所述模型表达式为:

其中,表示存在背景主题-词汇分布,表示各潜在地理区域的主题-词汇分布,表示各社区的主题-词汇分布;

(3)微博时空主题模型建模:用于描述时间、区域及社区要素对微博的生成过程,所述微博主题的表达式为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范学院,未经广西师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510670779.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top