[发明专利]面向大规模图挖掘的分布式网络表示学习方法有效

专利信息
申请号: 201711166875.9 申请日: 2017-11-21
公开(公告)号: CN107818176B 公开(公告)日: 2018-12-07
发明(设计)人: 王建民;龙明盛;刘锦韬;黄向东 申请(专利权)人: 清华大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 王莹;吴欢燕
地址: 100084 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 大规模 挖掘 分布式 网络 表示 学习方法
【说明书】:

发明涉及面向大规模图挖掘的分布式网络表示学习系统,其中包括三种分别用于减少内存开销、加速模型训练和提高通信效率的核心优化技术,属于计算机大数据分析技术领域。该系统以多进程的方式运行在集群中,按照性质将进程区分成客户端和服务端:客户端负责数据加载以及与服务端进行交互,而服务端负责存储特征矩阵和处理客户端的计算请求。本发明解决了分布式网络表示学习过程中内存占用大和传输数据量较大的问题。特别地,本文详细描述了基于数据块的边抽样方式、特征矩阵的列划分技术以及基于内积离散化和状态记录的高效通信机制。本发明具有训练速度快、内存占用小、特征表达能力强和能处理大规模图数据的特点。

技术领域

本发明涉及网络表示学习技术领域,更具体地,涉及一种面向大规模图挖掘的分布式网络表示学习方法。

背景技术

为了对图结构进行数据挖掘,需要获取图结构中节点的特征向量以基于特征向量利用机器学习进行数据挖掘。

现有技术中,通常采用大规模信息网络嵌入方法(Large Scale InformationNetwork Embedding,简称LINE)抽取节点的特征向量。该方法的应用前提是图结构和大规模信息网络嵌入模型均存储于同一台机器中。但该方法在应用至大规模图结构中时,大规模图结构包含的网络边集E很大,节点很多,相应地,利用大规模信息网络嵌入模型获取的节点的特征向量数目众多,很难存储于同一台机器中,因此,该方法难以应用至大规模图结构进行节点的特征向量获取。

发明内容

本发明提供一种面向大规模图挖掘的分布式网络表示学习方法、客户端、服务端和系统,以克服现有技术中,大规模信息网络嵌入方法难以应用至大规模图结构进行节点的特征向量获取的问题。

根据本发明的第一方面,提供一种面向大规模图挖掘的分布式网络表示学习方法,该方法包括:步骤11,分别对第一预设数目的边集中每一边集进行抽样,得到所述每一边集的子边集;所述第一预设数目的边集为对大规模图结构的所有边进行分组而得;步骤12,将所有所述子边集发送给第二预设数目的服务端,以使得所述第二预设数目的服务端返回所有所述子边集中每条边对应节点的特征向量的内积的各分量;步骤13,对所有所述子边集中每条边对应节点的特征向量的内积的各分量进行求和,得到所有所述子边集中每条边的内积并发送给所述第二预设数目的服务端,以供所述第二预设数目的服务端根据所有所述子边集中每条边的内积,更新所有所述子边集中每条边的起点和终点对应节点分别作为边的起点和终点时对应特征向量的各向量分块;步骤14,若所述抽样的次数未达到预设次数,重复所述抽样以及内积的发送过程,直至所述抽样的次数达到预设次数。

其中,在步骤11中,所述分别对第一预设数目的边集中每一边集进行抽样,得到所述每一边集的子边集,具体包括:获取所述大规模图结构的所有边的权值之和,作为总权值,并获取所述第一预设数目的边集中每一边集内的所有边的权值之和,作为边集权值;根据所述总权值、边集权值和所述大规模图结构中边的数目,获取所述第一预设数目的边集中每一边集内待抽取边的数目;在所述第一预设数目的边集中每一边集内,根据该边集的待抽取边的数目,利用别名抽样法,抽取边获得子边集。

其中,在步骤12中,所述第二预设数目的服务端返回所有所述子边集中每条边对应节点的特征向量的内积的各分量的离散化值;相应地,在步骤13中,所述对所有所述子边集中每条边对应节点的特征向量的内积的各分量进行求和,得到所有所述子边集中每条边的内积并发送给所述第二预设数目的服务端,具体包括:对所有所述子边集中每条边对应节点的特征向量的内积的各分量的离散化值进行离散化反变换后求和,得到所有所述子边集中每条边的内积;将所有所述子边集中每条边的内积进行离散化,得到所有所述子边集中每条边的内积的离散化值并发送给所述第二预设数目的服务端。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711166875.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top