[发明专利]基于子图采样的大规模属性图上的无监督图表示学习方法和装置有效
| 申请号: | 202010673816.6 | 申请日: | 2020-07-14 |
| 公开(公告)号: | CN111950594B | 公开(公告)日: | 2023-05-05 |
| 发明(设计)人: | 王佳麟;高军;白金泽;李朝;张吉;王佳 | 申请(专利权)人: | 北京大学 |
| 主分类号: | G06F18/21 | 分类号: | G06F18/21;G06F18/23213;G06N3/0455;G06N3/0464;G06N3/088;G06N3/084 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
| 地址: | 100871 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 采样 大规模 属性 监督 图表 学习方法 装置 | ||
本发明涉及一种基于子图采样的大规模属性图上的无监督图表示学习方法和装置。该方法包括:根据属性图的结构信息和节点属性信息,对属性图进行子图采样,生成多张子图;利用属性图的结构信息、节点属性信息和社区信息,在每个子图上进行图自编码器的学习,得到属性图中节点的低维向量表示。图自编码器包括编码器和解码器;编码器采用图卷积神经网络;解码器包含图结构损失重构解码器、图内容损失重构解码器以及图社区损失重构解码器。本发明支持用户利用此方法以无监督的方式学习大规模属性图中的节点的低维向量表示,这些向量表示会尽可能保留图上的拓扑结构信息和节点属性信息,这些向量作为输入应用于不同的下游任务来对图进行数据挖掘任务。
技术领域
本发明属于信息技术领域,具体涉及一种基于子图采样的大规模属性图上的无监督图表示学习方法和装置。
背景技术
近年来,随着互联网的飞速发展,数据规模爆炸式增长,数据之间的联系也越来越复杂紧密。图以点和边的形式来描述事物及事物间的关系,是一种能够直观描述客观世界的数据结构,广泛存在于生产生活中,如社交网络,交通路网,电子商务。而这些图中的节点通常带有丰富的属性信息,如论文引用网络中,节点代表论文,边代表引用关系,而节点上的属性信息是论文摘要或者全文的内容。如何在海量的属性图的数据中高效地挖掘出有效的信息是一种迫切的需要。
图表示学习是一种挖掘图中信息的方法,由于有监督任务中,对海量数据进行人工打标记代价巨大,本专利关注无监督的图表示学习问题。属性图上的无监督的图表示学习方法是利用神经网络模型来学习生成图中节点的低维向量表示,这些向量表示要尽可能保持图上原有的结构信息和节点的属性信息,它们(节点向量)可以被用于多种下游任务(如节点分类,节点聚类)来挖掘图上的信息。
现有的方法从模型角度可以分为两大类:基于随机游走的算法,基于图神经网络的算法。基于随机游走的算法在原图中通过随机游走生成多条路径,然后通过神经网络学习,使得在多条路径中一起出现概率大的节点对的节点有着更类似的向量表示。基于图神经网络的算法利用图自编码器来学习节点的向量表示,它在编码器中利用图卷积神经网络(或者其它图神经网络)来编码图的结构信息和节点属性信息,然后在解码器中重构图上的边。以上两种算法是通过不同的方法使得网络学习过程中考虑图上的各种维度的信息来学习节点的低维向量表示,都是无监督的图表示学习方法。
从算法可扩展性的角度,现有研究中适用于大规模图(十万级别的点,百万级别的边的规模以上)的算法通常是基于随机游走的方法,它们只利用图中的结构信息。而基于图神经网络的算法能够同时利用图中的结构信息和节点属性信息的算法,但是只适用于小图上(上千个节点,上万条边的规模),可扩展性受限。
从信息利用的角度,现有的算法,即上述两类算法,在损失函数中都只关注图中的局部结构信息,重构边或者局部紧邻的邻居节点,缺乏对节点属性信息和图上高阶结构信息(如社区)的利用。
发明内容
为了提高算法的可扩展性,并且在算法训练过程中对属性图中的各种维度的信息进行充分利用,本专利提出了一种基于子图采样的大规模属性图上的无监督图表示学习方法和装置,支持用户利用此方法以无监督的方式学习大规模属性图中的节点的低维向量表示,这些向量表示会尽可能保留图上的拓扑结构信息和节点属性信息,这些向量作为输入应用于不同的下游任务来对图进行数据挖掘任务。
本发明采用的技术方案如下:
一种基于子图采样的大规模属性图上的无监督图表示学习方法,包括以下步骤:
根据属性图的结构信息和节点属性信息,对属性图进行子图采样,生成多张子图;
利用属性图的结构信息、节点属性信息和社区信息,在每个子图上进行图自编码器的学习,得到属性图中节点的低维向量表示。
进一步地,所述子图采样包括:
计算节点影响矩阵其维度大小为[N,N],N为图中的节点数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010673816.6/2.html,转载请声明来源钻瓜专利网。





