[发明专利]一种基于信息融合的社交媒体用户账号分类方法有效
| 申请号: | 202010939237.1 | 申请日: | 2020-09-09 |
| 公开(公告)号: | CN112084335B | 公开(公告)日: | 2022-04-12 |
| 发明(设计)人: | 费高雷;明杨;胡光岷 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9536;G06K9/62 |
| 代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 信息 融合 社交 媒体 用户 账号 分类 方法 | ||
本发明公开了一种基于信息融合的社交媒体用户账号分类方法,包括以下步骤:S1、输入社交媒体数据;S2、从社交媒体数据中选取种子用户,获取种子用户的文本信息;S3、进行文本预处理,提取出需要的节点信息;S4、构建异质信息网络,将提取的节点信息进行融合,得到特征向量;S5、利用异质信息网络构建图卷积注意网络,对社交媒体用户账号进行分类。本发明通过构建异质信息网络将不同类型的节点信息进行融合,还原真实网络的复杂状态、丰富网络信息,找到账号与账号之间的潜在关系;并在异质信息网络的基础上,构建异质图卷积网络并增加注意力机制,得到网络中不同类型节点对于该节点的影响重要性,提高账号分类的准确性。
技术领域
本发明涉及一种基于信息融合的社交媒体用户账号分类方法。
背景技术
随着互联网技术的快速发展,社交媒体作为互联网时代的产物,已经成为人们生活中不可或缺的一部分,用户账号作为信息的发布者和传播者,蕴藏着大量有价值的数据信息。因此对海量账号进行有针对性地识别和分类,有利于减少传统账号管理系统构建所需的人力资源和时间成本,同时也能更全面有效地获取某个领域的实时信息和动态。
现有的账号分类技术主要由以下两种方法构成:基于机器学习的账号分类方法和基于深度学习的账号分类方法。
基于机器学习的账号分类,主要是通过有监督的学习算法,把训练的数据和分类标签作为输入传入,通过不断训练学习得到一个分类的数学模型。接着给模型输入未知的新数据,通过模型计算,输出一个分类结果。但特征工程是机器学习的主要瓶颈,特征提取的好坏直接影响到最后结果的好坏,而特征工程往往又需要专业知识领域的专家进行研究来识别出重要的特征进行标记。
Marco等人基于梯度提升树(GBDT)算法构建了一个机器学习框架,通过提取用户的属性特征、行为特征、文本特征以及社交网络特征,来对用户账号进行分类。
其中用户的属性特征主要是针对用户的用户名长度,用户名中数字和字母字符的数量等。通过实验表明,用户的属性特征可以有效地用于引导训练数据,但它们并不包含足够的信息直接用于用户分类。行为特征则是统计用户发布、转发、回复的文本数量,每条文本的平均标签和URL数量等,通过行为特征可以反应一个账号的活跃程度。文本特征是提取推文中的原型词、Hashtag、主题来进行分类。在分类任务中,可以用原型词来描述类,即特定类人群的典型词汇表达以及表示该类人群典型兴趣的短语。Hashtag与主题提取也是同样的道理。社交网络特征则是通过用户之间的社交关系来提取,比如关注、转发、回复等来进行分类。
基于深度学习的账号分类是通过多层处理,逐渐将初始的“低层”特征表示转化为“高层”特征表示后,再用“简单模型”即可完成复杂的分类等学习任务。由此可将深度学习理解为进行“特征学习”或“表示学习”。不同于机器学习的特征,深度学习中不需要专家设计出好特征而是依靠建立神经网络。神经网络的主要思想是模拟人的神经元,每个神经元接受到信息,处理完后传递给与之相邻的所有神经元。它会从数据中自动学习特征,减少了特征提取的成本。
Kipf提出一种基于图卷积神经网络(Graph Convolutional Network,GCN)的半监督分类方法,它是基于部分图形结构和节点特征进行运算。通过在标记节点上训练GCN,更新所有节点共享的权重矩阵,有效的将节点标签信息传播给未标记的节点,因此共享邻居的节点往往具有相似的特征表示。实验证明,即使是随机初始化的特征,也可以通过使用图结构很好地分离图中的节点。不过这种方法只适用于同质网络,即节点都是同一类型的网络,而社交网络由于其复杂性,只使用同质网络是远远不够的。
现有的账号分类方法在信息的利用上,通常只单独考虑了一种或者多种信息,比如账号的基本属性特征或文本特征,没有考虑不同信息之间的联系。同时由于社交媒体数据本身具有不准确性、不完整性、模糊性等特点,导致现有的账号分类方法无法获得准确的账号分类结果。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010939237.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





