[发明专利]基于子图采样的大规模属性图上的无监督图表示学习方法和装置有效
| 申请号: | 202010673816.6 | 申请日: | 2020-07-14 |
| 公开(公告)号: | CN111950594B | 公开(公告)日: | 2023-05-05 |
| 发明(设计)人: | 王佳麟;高军;白金泽;李朝;张吉;王佳 | 申请(专利权)人: | 北京大学 |
| 主分类号: | G06F18/21 | 分类号: | G06F18/21;G06F18/23213;G06N3/0455;G06N3/0464;G06N3/088;G06N3/084 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
| 地址: | 100871 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 采样 大规模 属性 监督 图表 学习方法 装置 | ||
1.一种基于子图采样的大规模属性图上的无监督图表示学习和数据挖掘方法,其特征在于,所述属性图采用电子商务数据集,图中节点是网页上的商品,如果两个商品被同一个用户购买则进行连边;该方法包括以下步骤:
根据属性图即电子商务数据集的结构信息和商品节点属性信息,对属性图即电子商务数据集进行子图采样,生成多张子图;
利用属性图即电子商务数据集的结构信息、商品节点属性信息和社区信息,在每个子图上进行图自编码器的学习,得到属性图即电子商务数据集中商品节点的低维向量表示;所述图自编码器包括编码器和解码器;编码器采用图卷积神经网络;解码器包含图结构损失重构解码器、图内容损失重构解码器以及图社区损失重构解码器,其中图结构损失重构解码器用于重构子图上的边,图内容损失重构解码器用于重构子图的商品节点属性向量,图社区损失重构解码器用于重构子图的社区信息;
利用属性图即电子商务数据集中商品节点的低维向量表示,对属性图即电子商务数据集进行数据挖掘,包括商品节点分类、商品节点聚类。
2.商品节点商品节点商品节点商品节点商品节点根据权利要求1所述的方法,其特征在于,所述子图采样包括:
计算商品节点影响矩阵其维度大小为[N,N],N为图中的商品节点数量;
通过结合的有偏斜的随机游走来采样子图。
3.根据权利要求2所述的方法,其特征在于,所述计算商品节点影响矩阵包括:
利用线性图卷积变换计算商品节点表示向量矩阵X′;其中,线性图卷积变换输入的是图的邻接矩阵A和商品节点属性向量矩阵X,输出的是新的商品节点表示向量矩阵X′,计算公式为X′=SKX,其中其中I是和A大小相同的单位矩阵;是的度数矩阵,K代表商品节点的感受域覆盖的K阶邻居范围;
根据商品节点表示向量矩阵X′中向量的相似性构造商品节点影响矩阵
4.根据权利要求3所述的方法,其特征在于,商品节点影响矩阵的计算公式为:
其中,(X′)T是X′的转置,cos代表cosine,通过cosine函数计算向量相似度,同时利用softmax函数对商品节点所有邻居相似度做归一化。
5.根据权利要求2所述的方法,其特征在于,所述通过结合的有偏斜的随机游走来采样子图,包括:
对于每次子图采样过程,首先根据图的拓扑结构随机采样种子节点,然后从每个种子节点出发,随机游走一条长度为T的路径;游走过程中对于所有邻居是根据来采样;
在全图中,把包含随机游走路径的商品节点作为子图的商品节点从而抽出一张子图。
6.根据权利要求1所述的方法,其特征在于:
所述图结构损失重构解码器,通过重构子图邻接矩阵的方式来计算损失函数,即衡量重构邻接矩阵和真实子图邻接矩阵At的差别来定义损失函数;
所述图内容损失重构解码器,通过同编码器中完全对称的网络结构来重构子图商品节点属性向量矩阵然后通过计算和真实的Xt的差别来定义损失函数;
所述图社区损失重构解码器,通过最大化子图中的商品节点向量表示和子图全图向量表示的互信息来计算损失函数,包括:首先根据子图中所有的商品节点向量来计算社区向量表示:其中Nt代表子图中商品节点的个数,代表第i个商品节点的隐层向量表示;然后通过利用腐蚀函数打乱子图中的向量表示Xt,并据此计算腐蚀掉的商品节点向量表示然后在损失函数中迫使semb与Zt更相似,与更不相似,通过计算semb同Zt以及的相似程度的不同来最大化互信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010673816.6/1.html,转载请声明来源钻瓜专利网。





