[发明专利]一种基于微博的网络用户增强表示方法有效

专利信息
申请号: 201710283853.4 申请日: 2017-04-26
公开(公告)号: CN107122455B 公开(公告)日: 2019-12-31
发明(设计)人: 胡玥;贾焰;周斌;杨树强;韩伟红;李爱平;黄九鸣;江荣;全拥;邓璐;刘强;张涛;童咏之;刘心;韩文祥 申请(专利权)人: 中国人民解放军国防科学技术大学
主分类号: G06F16/9536 分类号: G06F16/9536;G06K9/62;G06Q50/00
代理公司: 43202 国防科技大学专利服务中心 代理人: 文玲
地址: 410073 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 网络 用户 增强 表示 方法
【说明书】:

发明公开了一种基于微博的网络增强表示方法,本发明属于微博数据挖掘领域,尤其涉及针对微博数据的网络表示学习方法。该方法考虑微博短文本的口语化特征,有针对性地进行文本的预处理,从而降低噪声数据的影响;采用LDA主题模型生成用户历史博文文本的特征表示,并计算任意两用户博文特征间的余弦相似度,从而构建潜在好友关系网络;整合原始网络的结构信息,并将潜在好友关系融合到原始网络中,得到修正后的网络结构。本发明利用从用户生成文本中提取到的潜在好友关系网络,修正原始的网络拓扑结构,从而得到更准确的微博用户节点的特征表示。相比于只考虑网络结构的网络表示学习方法,在性别和年龄推理两个任务上,准确率得到明显的提高。

技术领域

本发明属于微博数据属于微博数据挖掘领域,尤其涉及针对微博数据的网络表示学习方法。

背景技术

Web2.0时代的互联网正逐步演变为无处不在的信息传播平台,Twitter、微博等面向社会性网络服务(Social Networking Services,简称SNS)的社交新媒体迅速得到大众的青睐。最新的统计数据显示,Twitter的月活跃用户达到3.1亿,新浪微博的月活跃用户达到2.97亿。人们借助社交媒体表达观点、分享信息、交流互动,社交媒体依靠社交网络传播和扩散消息,在政治、经济、文化、教育等领域产生深刻影响。于是,在线社交网络数据规模庞大、形式多样、结构复杂、动态变化等特性,以及热点舆情深远的导向作用,使得在线社交网络分析具有重要的研究价值。以新浪微博为例,用户可以发布140字以内的原创博文,可以是图片、超链接、视频、音频等多种形式,也可以浏览、转发、评论所关注好友的博文。微博数据呈现多源异构的特点,用户生成文本、用户属性列表、网络拓扑关系等都是重要的数据源,如何融合多源微博信息计算用户节点的特征表示变得至关重要。

表示学习是机器学习领域一个重要的研究问题,通过自动学习一个从原始输入数据到新的特征表示的变换,得到有效的特征表示。网络表示学习就是学习网络节点在低维空间的特征表示,实现量化特征和降维表示的目的。

目前,在网络表示学习领域已经出现了很多的研究成果。传统的流行学习方法从高维数据中恢复出低维流形结构,找到高维网络数据的低维嵌入表示。比如,Isomap算法基于MDS理论框架,将任意两点的测地线距离作为流形的几何描述,LLE算法(Locally linearEmbedding)认为一个流形在很小的局部邻域上可以近似看成局部线性的,将这个线性拟合的系数作为这个流形局部几何性质的刻画,LE算法(Laplacian Eigenmaps)的基本思想是用一个无向有权图来描述一个流形,然后用图嵌入来寻找低维表示,即保持图的局部邻接关系,把图从高维空间重新画到低维空间。

近些年,深度学习为网络表示学习提供了新的思路,针对大规模网络结构数据和丰富的网络节点信息,基于深度学习的网络表示模型不断出现。

受word2vec模型的启发,Deepwalk模型只考虑网络的拓扑结构,将网络中的节点对应语料库中的词,节点生成的序列对应语料库中的句子,采用随机游走的方法产生标准的输入序列,然后使用Skip-gram模型对序列建模从而得到网络节点的向量表示。但是,Deepwalk算法没有建立目标函数,不能学习带权有向图的节点表示,且节点序列是随机产生的,受噪声影响大。

LINE模型同时考虑网络拓扑结构的一阶和二阶相似性,一阶相似性表示网络中两个节点之间的点对相似性,即为节点之间边的权重,二阶相似性建立在“如果节点间共享相似的邻居节点,则两者趋于相似”的假设,利用两个节点的共同邻居来刻画二阶相似性。基于一阶相似性和二阶相似性的模型建好后,采用基于边的负采样方法来得到网络的节点表示。GraRep模型考虑更高阶的相似性信息,对每一阶的局部信息分别建模,采用SVD矩阵分解方法得到网络节点的向量表示,适用于大规模的网络结构。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710283853.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top