[发明专利]一种参数化的论文网络节点表示学习方法有效
| 申请号: | 201711308050.6 | 申请日: | 2017-12-11 |
| 公开(公告)号: | CN108228728B | 公开(公告)日: | 2020-07-17 |
| 发明(设计)人: | 蒲菊华;陈虞君;刘伟;班崟峰;杜佳鸿;熊璋 | 申请(专利权)人: | 北京航空航天大学;深圳北航新兴产业技术研究院 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06N3/04;G06N3/08;G06Q50/00 |
| 代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 冀学军 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 参数 论文 网络 节点 表示 学习方法 | ||
1.一种参数化的论文网络节点表示学习方法,其特征在于包括有下列步骤:
步骤一,基于随机游走方法采样获取任意一个论文节点的邻居论文节点集、及邻居的邻居论文节点集;
步骤101:构建一个论文节点空队列,记为V,所述V用来存储论文节点序列;论文节点空队列V的最大队列元素位数为mv,mv的取值为10~20;然后执行步骤102;
步骤102:选取任意一个论文节点papera,然后将所述papera放入论文节点队列V中第1位;然后执行步骤103;
步骤103:获取属于任意一个论文节点papera的全部邻居论文节点集,记为邻居论文节点集是指与任意一个论文节点papera之间存在连边的邻居论文节点集合;然后执行步骤104;
表示属于任意一个论文节点papera的第一个邻居节点,即第一个邻居论文节点;
表示属于任意一个论文节点papera的第二个邻居节点,即第二个邻居论文节点;
表示属于任意一个论文节点papera的任意一个邻居节点,即任意一个邻居论文节点,b表示邻居节点的标识号;
表示属于任意一个论文节点papera的最后一个邻居节点,即最后一个邻居论文节点,B表示属于papera的邻居节点总数,B∈A;
步骤104:根据所述邻居论文节点集中邻居节点总数B确定跳转到第一跳转概率c表示跳数;然后执行步骤105;
步骤105:采用别名采样算法,根据当前的第一跳转概率在所述中获取下一跳的邻居论文节点同时将放入论文节点队列V的第2位;然后执行步骤106;
步骤106:获取属于任意一个邻居论文节点的全部邻居论文节点集,即邻居的邻居论文节点集然后执行步骤107;
表示属于任意一个邻居论文节点的第一个邻居节点,即邻居的第一个邻居论文节点;
表示属于任意一个邻居论文节点的第二个邻居节点,即邻居的第二个邻居论文节点;
表示属于任意一个邻居论文节点的任意一个邻居节点,即邻居的任意一个邻居论文节点,e表示属于邻居论文节点的邻居节点的标识号;
表示属于任意一个邻居论文节点的最后一个邻居节点,即邻居的最后一个邻居论文节点,E表示属于的邻居节点总数,E∈A;
步骤107:计算任意一个邻居的邻居论文节点与任意一个论文节点papera之间的最短跳数然后执行步骤108;
其中代表的是从任意一个邻居的邻居论文节点到位于papera之前的一个论文节点的最少跳数距离;
步骤108:根据所述的来确定跳转到每一个邻居论文节点的第二跳转概率然后执行步骤109;
所述第二跳转概率c表示跳数;p为随机游走方法中用于调节不在所述论文节点队列V中的论文节点的第二跳转概率大小的参数,即跳出参数;q为随机游走方法中用于调节在所述论文节点队列V中的论文节点的第二跳转概率大小的参数,即跳入参数;
步骤109:经确定之后,根据和别名采样,选择作为下一跳论文节点,同时将放入论文节点队列V中的第3位;然后执行步骤110;
步骤110:循环执行步骤106和步骤109,直至论文节点队列V中的位数为mv时,本次随机游走停止;然后执行步骤111;
步骤111:对于整个论文网络中的每一个论文节点重复执行步骤101到步骤109,来完成论文节点的邻居节点采样,则有论文节点队列集合记为VF={V1,V2,...,Vf,...,VF};然后执行步骤201;
V1表示第一个论文节点队列;
V2表示第二个论文节点队列;
Vf表示任意一个论文节点队列,f表示论文节点队列的标识号;
VF表示最后一个论文节点队列,F表示论文节点队列集合的总数,f∈F;
步骤二,采用负采样方法生成多层感知机的神经网络训练数据;
步骤201:建立正样本队列Qp和负样本队列Qn,分别存放训练神经网络所需要的正采样数据和负采样数据,然后执行步骤202;
步骤202:设立邻居窗口大小超参数WD,若WD在论文节点队列Vf中,则属于论文节点队列Vf中的各个论文记为然后执行步骤203;
表示属于任意一个论文节点队列Vf的第一个论文节点;
表示属于任意一个论文节点队列Vf的第二个论文节点;
表示属于任意一个论文节点队列Vf的任意一个论文节点,g表示论文节点的标识号;
表示属于任意一个论文节点队列Vf的最后一个论文节点,G表示论文节点队列Vf的长度,g∈G;
对于任意一个论文队列中的节点认为在队列中与节点距离小于WD的全部节点为正样本节点;每次,对于任意一个论文节点先获取属于的2×WD个相邻论文节点集,记为
表示在相邻论文节点中最小标识号的节点;
表示在相邻论文节点中最大标识号的节点;
表示在相邻论文节点中除和以外的队列—相邻论文节点,下角标l表示不是最大也不是最小论文节点的标识号;
步骤203:对于任意一个任意队列—论文节点按照其邻居标识号的顺序,从小到大进行采样,采样过程为对所述中的各个节点与任意队列—论文节点构成一个三元组,然后执行步骤204;
对于所述与任意队列—论文节点构成一个三元组,即其中δ=+1代表该三元组为正样本,反之δ=-1则表示该三元组为负样本,并将插入正样本队列Qp中;
对于所述与任意队列—论文节点构成一个三元组,即其中δ=+1代表该三元组为正样本,反之δ=-1则表示该三元组为负样本,并将插入正样本队列Qp中;
对于所述与任意队列—论文节点构成一个三元组,即其中δ=+1代表该三元组为正样本,反之δ=-1则表示该三元组为负样本,并将插入正样本队列Qp中;
步骤204:循环执行步骤202和步骤203,直至论文节点队列集合VF={V1,V2,...,Vf,...,VF}中的所有论文节点队列中的所有论文节点都完成邻居论文节点的采样工作,得到正样本队列Qp,然后执行步骤207;
步骤205:对网络中所有论文节点进行采样,每次从网络中选取任意两个论文节点,即第一任意论文节点papera,第二任意论文节点papero;如果两个论文节点之间存在连边,或者两个随机选取的论文节点相同,则继续本步骤,否则将任意两个论文节点papera、papero组成三元组(papera,papero,-1)存入负样本队列Qn中,然后执行步骤206;
步骤206:循环执行步骤205,设立一个正负样本比例参数μ,假设正样本队列Qp中三元组个数为np,那么当Qn中的三元组数量等于μ×np时停止,然后执行步骤207;
步骤207:将步骤204中得到的正样本队列Qp与步骤206中得到的负样本队列Qn合并在一起,得到一个新的样本队列Q新={Q1....,Q(1+μ)×np},后执行步骤208;
Q1表示新的样本队列Q新中的最小标识号的三元组;
Q(1+μ)×np表示新的样本队列Q新中的最大标识号的三元组;下标(1+μ)×np代表样本队列Q新中包含有(1+μ)×np个三元组;
步骤208:将新的样本队列Q新={Q1....,Q(1+μ)×np}中的所有元素打乱顺序,得到乱序的样本队列Q排序={Q1....,Q(1+μ)×np},然后执行步骤301;
步骤三,在基于多层感知机的神经网络论文概率模型中的处理;
步骤301:针对步骤208得到的所述Q排序={Q1....,Q(1+μ)×np},每次选择一个三元组(papera,papero,δ),作为一对论文节点放入神经网络论文概率模型中进行学习,执行步骤302;
步骤302:对于每一个三元组中的两个论文节点papera与papero,采用模型进行映射,得到两个相对应变换后的向量执行步骤303;
为属于papera的多层感知机函数;
为属于papero的多层感知机函数;
步骤303:计算两个论文节点的欧氏距离,执行步骤304;
欧氏距离为:
Epos表示欧氏最短距离;Eneg表示欧氏最长距离;c表示跳数;
步骤304:利用δ将正负样本合并放入关于论文分布式表示的欧氏距离的损失函数中,并进行平衡正负样本的损失函数计算,得到整体的损失函数L,执行步骤305;
γ表示调和参数,是用来平衡正负样本的损失函数;
m表示Q排序中的任意一个三元组的标识号;
由于三元组(papera,papero,δ)中的δ代表了该三元组是正样本还是负样本的标志,其中正样本认为是需要在空间中相似的点,而负样本认为是需要在空间中距离尽可能远的点;
步骤305:采用随机梯度下降算法确定出非线性变换函数fθ,完成任意两个论文节点papera与papero的表示学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;深圳北航新兴产业技术研究院,未经北京航空航天大学;深圳北航新兴产业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711308050.6/1.html,转载请声明来源钻瓜专利网。





