[发明专利]一种基于微博的网络用户增强表示方法有效
| 申请号: | 201710283853.4 | 申请日: | 2017-04-26 |
| 公开(公告)号: | CN107122455B | 公开(公告)日: | 2019-12-31 |
| 发明(设计)人: | 胡玥;贾焰;周斌;杨树强;韩伟红;李爱平;黄九鸣;江荣;全拥;邓璐;刘强;张涛;童咏之;刘心;韩文祥 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
| 主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06K9/62;G06Q50/00 |
| 代理公司: | 43202 国防科技大学专利服务中心 | 代理人: | 文玲 |
| 地址: | 410073 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 网络 用户 增强 表示 方法 | ||
本发明公开了一种基于微博的网络增强表示方法,本发明属于微博数据挖掘领域,尤其涉及针对微博数据的网络表示学习方法。该方法考虑微博短文本的口语化特征,有针对性地进行文本的预处理,从而降低噪声数据的影响;采用LDA主题模型生成用户历史博文文本的特征表示,并计算任意两用户博文特征间的余弦相似度,从而构建潜在好友关系网络;整合原始网络的结构信息,并将潜在好友关系融合到原始网络中,得到修正后的网络结构。本发明利用从用户生成文本中提取到的潜在好友关系网络,修正原始的网络拓扑结构,从而得到更准确的微博用户节点的特征表示。相比于只考虑网络结构的网络表示学习方法,在性别和年龄推理两个任务上,准确率得到明显的提高。
技术领域
本发明属于微博数据属于微博数据挖掘领域,尤其涉及针对微博数据的网络表示学习方法。
背景技术
Web2.0时代的互联网正逐步演变为无处不在的信息传播平台,Twitter、微博等面向社会性网络服务(Social Networking Services,简称SNS)的社交新媒体迅速得到大众的青睐。最新的统计数据显示,Twitter的月活跃用户达到3.1亿,新浪微博的月活跃用户达到2.97亿。人们借助社交媒体表达观点、分享信息、交流互动,社交媒体依靠社交网络传播和扩散消息,在政治、经济、文化、教育等领域产生深刻影响。于是,在线社交网络数据规模庞大、形式多样、结构复杂、动态变化等特性,以及热点舆情深远的导向作用,使得在线社交网络分析具有重要的研究价值。以新浪微博为例,用户可以发布140字以内的原创博文,可以是图片、超链接、视频、音频等多种形式,也可以浏览、转发、评论所关注好友的博文。微博数据呈现多源异构的特点,用户生成文本、用户属性列表、网络拓扑关系等都是重要的数据源,如何融合多源微博信息计算用户节点的特征表示变得至关重要。
表示学习是机器学习领域一个重要的研究问题,通过自动学习一个从原始输入数据到新的特征表示的变换,得到有效的特征表示。网络表示学习就是学习网络节点在低维空间的特征表示,实现量化特征和降维表示的目的。
目前,在网络表示学习领域已经出现了很多的研究成果。传统的流行学习方法从高维数据中恢复出低维流形结构,找到高维网络数据的低维嵌入表示。比如,Isomap算法基于MDS理论框架,将任意两点的测地线距离作为流形的几何描述,LLE算法(Locally linearEmbedding)认为一个流形在很小的局部邻域上可以近似看成局部线性的,将这个线性拟合的系数作为这个流形局部几何性质的刻画,LE算法(Laplacian Eigenmaps)的基本思想是用一个无向有权图来描述一个流形,然后用图嵌入来寻找低维表示,即保持图的局部邻接关系,把图从高维空间重新画到低维空间。
近些年,深度学习为网络表示学习提供了新的思路,针对大规模网络结构数据和丰富的网络节点信息,基于深度学习的网络表示模型不断出现。
受word2vec模型的启发,Deepwalk模型只考虑网络的拓扑结构,将网络中的节点对应语料库中的词,节点生成的序列对应语料库中的句子,采用随机游走的方法产生标准的输入序列,然后使用Skip-gram模型对序列建模从而得到网络节点的向量表示。但是,Deepwalk算法没有建立目标函数,不能学习带权有向图的节点表示,且节点序列是随机产生的,受噪声影响大。
LINE模型同时考虑网络拓扑结构的一阶和二阶相似性,一阶相似性表示网络中两个节点之间的点对相似性,即为节点之间边的权重,二阶相似性建立在“如果节点间共享相似的邻居节点,则两者趋于相似”的假设,利用两个节点的共同邻居来刻画二阶相似性。基于一阶相似性和二阶相似性的模型建好后,采用基于边的负采样方法来得到网络的节点表示。GraRep模型考虑更高阶的相似性信息,对每一阶的局部信息分别建模,采用SVD矩阵分解方法得到网络节点的向量表示,适用于大规模的网络结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710283853.4/2.html,转载请声明来源钻瓜专利网。





