[发明专利]一种基于支持向量机的链路预测方法有效
申请号: | 202110292562.8 | 申请日: | 2021-03-18 |
公开(公告)号: | CN112862082B | 公开(公告)日: | 2023-09-29 |
发明(设计)人: | 陈伟伦;周银座;韩筱璞 | 申请(专利权)人: | 杭州师范大学 |
主分类号: | G06F18/2411 | 分类号: | G06F18/2411;G06N20/10 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 311121 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 支持 向量 预测 方法 | ||
本发明公开了一种基于支持向量机的链路预测方法。本发明步骤如下:步骤1、读取数据,并划分数据集,构建复杂网络结构;步骤2、构建特征工程;步骤3、使用支持向量机进行分类器训练;步骤4、使用链路预测中AUC指标对模型进行评估;步骤5、对于同一个数据集,使用相似性指标进行链路预测任务,计算相对应的AUC数值后进行对比。本发明在公开的数据集:C.elegans、FWFW以及karate club数据集上取得了较好的链路预测效果。本发明的算法取得的AUC对比其他算法有较为明显的提升。
技术领域
本发明涉及一种基于支持向量机的链路预测方法。
背景技术
复杂网络在自然界中广泛存在,并且与我们的生活息息相关。比如万维网、航空网络、在线社交网络等关键网络都可以看成复杂网络,因此加强对复杂网络的科学研究是人类社会日益迫切的需求。链路预测是复杂网络中研究缺失连边和未来形成连边的重要组成部分。复杂网络中的链路预测是指如何通过已知的网络节点以及网络结构信息预测网络中尚未产生连边的两个节点之间产生连接的可能性。
发明内容
本发明的目的是提供一种基于支持向量机的链路预测方法。
一种基于支持向量机的链路预测方法,包括如下步骤:
步骤1、读取数据,并划分数据集,构建复杂网络结构;
11.读取公开数据集;
首先需要读取数据集的节点和连边信息,使用数据集中的节点和连边的信息建立一个与数据集对应的复杂网络模型结构G(V,E),其中V代表网络中的节点,E代表网络中的连边。
本发明使用的数据集均为公开数据集,选取线虫的神经网络(C.elegans)、佛罗里达州食物链网络(FWFW)以及空手道俱乐部网络(karate club)共三种实际网络。
12.划分数据集为训练集和测试集;
由于需要验证算法的正确性,一般将已知的边集E分成训练集、测试集,训练集用于实验时观察的网络信息,用于计算节点的相似性得分。
本发明采用9:1的比例划分训练集和测试集,即测试集连边数占总的连边数的10%,并按照训练集和测试集的划分情况生成用于测试算法准确性的测试网络。
步骤2、构建特征工程
21.确定正负样本,并给定标签;
本发明将链路预测作为一个基于有监督学习的二分类任务。将实际网络中存在的边标记为正样本,标签赋值为1。不存在的边为负样本,标签赋值为0。
本发明使用负采样策略,从不存在的连边的节点对列表中选取与训练集的正样本等大的连边集合作为训练集中的负样本。这样可以避免正负样本不均衡的问题。针对测试集,我们也采取同样的负样本策略,使得测试集中正样本和负样本的数量比例为1∶1。
22.提取特征向量:
定义:为连接节点vc和vy的路径中长度为l的路径数目。α为可调参数,用于控制各阶路径的贡献,通常取α=10-2或α=10-3。
本发明使用训练网络(由训练集生成的网络,包含90%的边)进行样本(包括正样本和负样本)的特征向量的提取,提取方式如下:
每一个样本由节点对vx-vy组成,特征向量定义如下:
以n=3为例,三维的特征向量为:
即三维特征向量所使用的特征为:以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110292562.8/2.html,转载请声明来源钻瓜专利网。