[发明专利]一种基于支持向量机的链路预测方法有效
申请号: | 202110292562.8 | 申请日: | 2021-03-18 |
公开(公告)号: | CN112862082B | 公开(公告)日: | 2023-09-29 |
发明(设计)人: | 陈伟伦;周银座;韩筱璞 | 申请(专利权)人: | 杭州师范大学 |
主分类号: | G06F18/2411 | 分类号: | G06F18/2411;G06N20/10 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 311121 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 支持 向量 预测 方法 | ||
1.一种基于支持向量机的链路预测方法,其特征在于包括如下步骤:
步骤1、读取数据,并划分数据集,构建复杂网络结构;
步骤2、构建特征工程;
首先需要确定网络中的正负样本,采用负样本采样的策略,使得正负样本均衡;确定正负样本之后,对所有样本进行特征的提取;
步骤3、使用支持向量机进行分类器训练;
使用的支持向量机采用的核函数为高斯核函数,在训练时,针对不同的数据集以及不同的数据集的划分情况进行超参数的调整,得到训练好的支持向量机模型;
步骤4、使用链路预测中AUC指标对模型进行评估;
将测试集中的正样本和负样本输入到训练好的支持向量机模型中,得到每个样本的分类预测结果和分类概率值,使用AUC对模型进行评价;
步骤5、对于同一个数据集,使用相似性指标进行链路预测任务,计算相对应的AUC数值后进行对比;
步骤2具体实现如下:
21.确定正负样本,并给定标签;
将链路预测作为一个基于有监督学习的二分类任务;将实际网络中存在的边标记为正样本,标签赋值为1;不存在的边为负样本,标签赋值为0;
使用负采样策略,从不存在的连边的节点对列表中选取与训练集的正样本等大的连边集合作为训练集中的负样本;针对测试集,采取同样的负样本策略,使得测试集中正样本和负样本的数量比例为1:1;
22.提取特征向量:
定义:为连接节点vx和vy的路径中长度为l的路径数目;α为可调参数,用于控制各阶路径的贡献,通常取α=10-2或α=10-3;
使用训练网络进行所有样本的特征向量的提取,提取方式如下:
每一个样本由节点对vx-vy组成,特征向量定义如下:
步骤3具体实现如下:
31.调节超参数;
将特征向量确定为二维,将训练集中的正负样本提取到的二维特征向量以及对应的标签送入支持向量机模型进行训练;
支持向量机的核函数选择高斯核函数作为内核;高斯核函数在考虑数据点之间的距离时,采用如下公式进行计算;
其中,γ是用来控制RBF内核宽度的参数;
在使用网格搜索寻找当前数据集适用的最佳超参数时,使用链路预测中的AUC指标对模型进行评估;
32.确定特征向量的维数;
将特征向量增加为三维;重复将训练集中的正负样本提取到的二维特征向量以及对应的标签送入支持向量机模型进行训练,记录下三维特征向量所取得的最佳AUC。
2.根据权利要求1所述的一种基于支持向量机的链路预测方法,其特征在于步骤1具体实现如下:
11.读取公开数据集;
首先需要读取数据集的节点和连边信息,使用数据集中的节点和连边的信息建立一个与数据集对应的复杂网络模型结构G(V,E),其中V代表网络中的节点,E代表网络中的连边;
12.划分数据集为训练集和测试集;
将已知的网络数据连边集合E分成训练集ET、测试集EP,训练集ET用于实验时观察的网络信息,用于计算节点的相似性得分;测试集EP作为实验时要预测的网络信息,用于对比实验预测的结果;这里E=ET∪EP,令U为N(N-1)/2个节点对组成的全集,那么将属于U但不属于E的边称为不存在的边,属于U但不属于ET的边称为未知边;
采用随机抽样策略,随机选取网络中10%的连边作为测试集EP的连边,将这10%的边从完整网络中删除,网络结构中剩余90%的边作为训练集ET。
3.根据权利要求2所述的一种基于支持向量机的链路预测方法,其特征在于所述的公开数据集,选择3种实际的网络数据集,且选取的网络均为无权无向网络结构,包括1)线虫的神经网络;2)佛罗里达州食物链网络;3)空手道俱乐部网络。
4.根据权利要求3所述的一种基于支持向量机的链路预测方法,其特征在于特征向量维数设定的最大值为6,因此需要遍历特征向量维数从2维到6维的情况,统计不同的特征向量维数的情况下所能取得的最佳的AUC;对比不同维数的特征向量对应的最佳AUC,将其中最大的AUC值对应的特征向量的维数确定为当前数据集所适合的最佳的特征向量维数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110292562.8/1.html,转载请声明来源钻瓜专利网。