[发明专利]基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类方法及装置有效
申请号: | 201910631146.9 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110502669B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 刘琰;冯昊;周资乔;陈静;刘楝;赵艺;张琦 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06N3/08;G06K9/62 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 张立强 |
地址: | 450000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 dfs 轻量级 监督 图表 学习 社交 媒体 数据 分类 方法 装置 | ||
本发明属于图形处理技术领域,公开一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类方法及装置,该方法包括:步骤1:在图集各图中分别遍历N边DFS子图结构,对各图的N边DFS子图进行抽取;步骤2:对抽取的N边DFS子图进行汇集,构成各图的子图集;步骤3:将所述子图集输入到神经网络模型中进行训练,得到各图的向量表示;该装置包括:子图抽取模块;子图汇集模块;图向量表示模块。本发明可适用于规模较大的图数据集,可以较全面地抽取子图结构。
技术领域
本发明属于图形处理技术领域,尤其涉及一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类方法及装置。
背景技术
在现实生活中,图是一种普遍存在的数据结构,它可以模拟几乎所有事物之间的联系,例如通信网络中用户之间的通联关系、网络拓扑图中计算机与计算机之间的联系、社交网络中用户与用户之间的关系等。通常系统中的每个实体都映射到了图中的一个节点,而实体之间的联系则被映射为图中的一条边,图结构可以很方便地反映现实生活中事物之间的联系。其中图与图之间的相似性计算是一个热门的研究领域,比较图与图之间的相似性在现实生活中有较为广泛的应用,可用于恶意代码检测、蛋白质相互作用网络属性分类、用户评论情感分类等。然而,随着图数据集规模的不断扩大,传统的图相似性计算基于节点和边的统计、图的同构测试,上述方法不能很好的捕捉图中的内在结构变化,已不能满足需求。而通过在图数据集上引入图表示学习模型,可以方便地对图数据集进行分类,同时通过将图转化为向量表示可以方便地进行图的相似性计算。
为了反映图的结构变化、对图集按照结构相似性进行分类,学者们已经提出了许多图表示学习方法,较为典型的有Edge-Conditioned Convolution(ECC)、Pathchy-san(PSCN)、Graph2Vec、GE-FSG等算法,在上述算法中ECC、PSCN算法属于有监督的图表示学习算法,在数据集的分类上效果良好,而有监督的图表示学习算法其特性决定了其不能直接用于其他类似聚类、社团检测等任务中。Graph2Vec、GE-FSG算法属于无监督的图表示学习算法,用来学习整个图的向量表示,可以方便对图之间的相似性进行度量,其适用性较有监督的图表示学习算法有较大的提升,可用于图分类、聚类、链接预测及社团检测等方面的任务。
在无监督的图表示学习邻域,Graph2Vec算法基于根子图抽取,而根子图抽取过程中忽略了根子图内部的子结构相似性,即不管两个根子图有多相似,只要其不完全相同则视为两个不同的结构,同时Graph2Vec算法是在节点邻域内而不是在整个图的范围内抽取结构特征,因此其存在着图结构学习不全面的问题,进而直接影响其图分类任务的准确度。GE-FSG算法基于频繁子图挖掘,然而频繁子图挖掘时间复杂度较高,不适用于规模较大的图数据集。
图在进行表示学习后可以将图结构转化为向量形式,进而可以快速方便地度量图之间的相似性,现有的图表示学习方法主要是基于根子图和频繁子图抽取,之后调用神经网络模型获得图的向量表示。这些方法存在下列问题:一是部分算法在子图抽取时较为复杂,通用性不高;二是在图表示学习时因未能较全面地抽取子图导致最终生成的向量无法较好地表示原始图形,进而导致图分类效果不够理想。
发明内容
本发明针对现有图表示学习方法不能全面地抽取图的结构信息、且不适用于规模较大的图数据集的问题,提出一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类方法及装置。
为了实现上述目的,本发明采用以下技术方案:
一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类方法,包括:
步骤1:在图集各图中分别遍历N边DFS子图结构,对各图的N边DFS子图进行抽取;
步骤2:对抽取的N边DFS子图进行汇集,构成各图的子图集;
步骤3:将所述子图集输入到神经网络模型中进行训练,得到各图的向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学,未经中国人民解放军战略支援部队信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910631146.9/2.html,转载请声明来源钻瓜专利网。