[发明专利]一种参数化的论文网络节点表示学习方法有效
| 申请号: | 201711308050.6 | 申请日: | 2017-12-11 |
| 公开(公告)号: | CN108228728B | 公开(公告)日: | 2020-07-17 |
| 发明(设计)人: | 蒲菊华;陈虞君;刘伟;班崟峰;杜佳鸿;熊璋 | 申请(专利权)人: | 北京航空航天大学;深圳北航新兴产业技术研究院 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06N3/04;G06N3/08;G06Q50/00 |
| 代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 冀学军 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种参数化的论文网络节点表示学习方法,该方法首先构建一个空的论文节点队列,然后采用随机游走方式采样任意一个论文节点的邻居节点、及邻居的邻居节点;并将选取的论文节点作为论文节点队列的第一个元素,随后依据跳转概率得到论文节点队列的其他元素;遍历完成所有的论文节点,则有论文节点队列集合;然后采用正负采样方法生成多层感知机的神经网络训练数据;最后采用神经网络论文概率模型进行处理,得到论文节点语义信息到论文节点向量表示的非线性变换,进而得到论文节点的向量表示。 | ||
| 搜索关键词: | 一种 参数 论文 网络 节点 表示 学习方法 | ||
【主权项】:
1.一种参数化的论文网络节点表示学习方法,其特征在于包括有下列步骤:步骤一,基于随机游走方法采样获取任意一个论文节点的邻居—论文节点集、及邻居的邻居—论文节点集;步骤101:构建一个论文节点空队列,记为V,所述V用来存储论文节点序列;论文节点空队列V的最大队列元素位数为mv,mv的取值为10~20;然后执行步骤102;步骤102:选取任意一个论文节点papera,然后将所述papera放入论文节点队列V中第1位;然后执行步骤103;步骤103:获取属于任意一个论文节点papera的全部邻居论文节点集,记为
邻居论文节点是指与任意一个论文节点papera之间存在连边的论文节点集合;然后执行步骤104;步骤104:根据所述邻居论文节点集
中邻居节点总数B确定跳转到第一跳转概率
c表示跳数;然后执行步骤105;步骤105:采用别名采样算法(alias sampling),根据当前的
在所述
中获取下一跳的邻居论文节点
同时将
放入论文节点队列V的第2位;然后执行步骤106;步骤106:获取属于邻居论文节点
的全部邻居论文节点集,即邻居的邻居—论文节点集
然后执行步骤107;步骤107:计算邻居论文节点
与任意一个论文节点papera之间的最短跳数
然后执行步骤108;其中
代表的是从任意一个邻居论文节点到前一个论文节点的最少跳数距离;步骤108:根据所述的
来确定
跳转到第二跳转概率
然后执行步骤109;所述第二跳转概率
c表示跳数。步骤109:经
确定之后,根据
和别名采样,选择
作为下一跳论文节点,同时将
放入论文节点队列V中的第3位;然后执行步骤110;步骤110:循环执行步骤106和步骤109,直至论文节点队列V中的位数为mv时,本次随机游走停止;然后执行步骤111;步骤111:对于整个论文网络中的每一个论文节点重复执行步骤101到步骤109,来完成论文节点的邻居节点采样,则有论文节点队列集合记为VF={V1,V2,...,Vf,...,VF};然后执行步骤201。V1表示第一个论文节点队列;V2表示第二个论文节点队列;Vf表示任意一个论文节点队列,f表示论文节点队列的标识号;VF表示最后一个论文节点队列,F表示论文节点队列集合的总数,f∈F。步骤二,采用负采样方法生成多层感知机的神经网络训练数据;步骤201:建立正样本队列Qp和负样本队列Qn,分别存放训练神经网络所需要的正采样数据和负采样数据,然后执行步骤202;步骤202:设立邻居窗口大小超参数WD,若WD在论文节点队列Vf中,则属于论文节点队列Vf中的各个论文记为
然后执行步骤203;
表示属于任意一个论文节点队列Vf的第一个论文节点;
表示属于任意一个论文节点队列Vf的第二个论文节点;
表示属于任意一个论文节点队列Vf的任意一个论文节点,g表示邻居论文节点的标识号;
表示属于任意一个论文节点队列Vf的最后一个论文节点,G表示论文节点队列Vf的长度,g∈G。对于任意一个论文队列中的节点在本发明中,认为在队列中与节点距离小于WD的全部节点为正样本节点。每次,对于任意一个论文节点本发明先获取属于的2×WD个相邻论文节点集,记为![]()
表示在相邻论文节点
中最小标识号的节点。
表示在相邻论文节点
中最大标识号的节点。
表示在相邻论文节点
中除
和
以外的队列—相邻论文节点,下角标l表示不是最大也不是最小论文节点的标识号;步骤203:对于任意一个任意队列—论文节点
按照其邻居标识号的顺序,从小到大进行采样,采样过程为对所述
中的各个节点与任意队列—论文节点
构成一个三元组,然后执行步骤204;对于所述
与任意队列—论文节点
构成一个三元组,即
其中δ=+1代表该三元组为正样本,反之δ=‑1则表示该三元组为负样本,并将
插入正样本队列Qp中。对于所述
与任意队列—论文节点
构成一个三元组,即![]()
其中δ=+1代表该三元组为正样本,反之δ=‑1则表示该三元组为负样本,并将
插入正样本队列Qp中。对于所述
与任意队列—论文节点
构成一个三元组,即
其中δ=+1代表该三元组为正样本,反之δ=‑1则表示该三元组为负样本,并将
插入正样本队列Qp中。步骤204:循环执行步骤202和步骤203,直至论文节点队列集合VF={V1,V2,...,Vf,...,VF}中的所有论文节点队列中的所有论文节点都完成邻居论文节点的采样工作,得到正样本队列Qp,然后执行步骤207;步骤205:对网络中所有论文节点进行采样,每次从网络中选取任意两个论文节点,即第一任意论文节点papera,第二任意论文节点papero。如果两个论文节点之间存在连边,或者两个随机选取的论文节点相同,则继续本步骤,否则将任意两个论文节点papera、papero组成三元组(papera,papero,‑1)存入负样本队列Qn中,然后执行步骤206;步骤206:循环执行步骤205,设立一个正负样本比例参数μ,假设正样本队列Qp中三元组个数为np,那么当Qn中的三元组数量等于μ×np时停止,然后执行步骤207;步骤207:将步骤204中得到的正样本队列Qp与步骤206中得到的负样本队列Qn合并在一起,得到一个新的样本队列Q新={Q1....,Q(1+μ)×np},,后执行步骤208;Q1表示新的样本队列Q新中的最小标识号的三元组。Q(1+μ)×np表示新的样本队列Q新中的最大标识号的三元组。下标(1+μ)×np代表样本队列Q新中包含有(1+μ)×np个三元组。步骤208:将新的样本队列Q新={Q1....,Q(1+μ)×np}中的所有元素打乱顺序,得到乱序的样本队列Q排序={Q1....,Q(1+μ)×np},然后执行步骤301。步骤三,在基于多层感知机的神经网络论文概率模型中的处理;步骤301:针对步骤208得到的所述Q排序={Q1....,Q(1+μ)×np},每次选择一个三元组(papera,papero,δ),作为一对论文节点放入神经网络论文概率模型中进行学习,执行步骤302;步骤302:对于每一个三元组中的两个论文节点papera与papero,采用模型
进行映射,得到两个相对应变换后的向量
执行步骤303;
为属于papera的多层感知机函数;
为属于papero的多层感知机函数;步骤303:计算两个论文节点的欧氏距离,执行步骤304;欧氏距离为:![]()
Epos表示欧氏最短距离;Eneg表示欧氏最长距离;c表示跳数。步骤304:利用δ将正负样本合并放入关于论文分布式表示的欧氏距离的损失函数中,并进行平衡正负样本的损失函数计算,得到整体的损失函数L,执行步骤305;
步骤305:采用随机梯度下降算法确定出非线性变换函数fθ,完成任意两个论文节点papera与papero的表示学习。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;深圳北航新兴产业技术研究院,未经北京航空航天大学;深圳北航新兴产业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711308050.6/,转载请声明来源钻瓜专利网。





