[发明专利]一种构建公平的链接预测评估系统的方法有效
| 申请号: | 201810812169.5 | 申请日: | 2018-07-23 |
| 公开(公告)号: | CN109086373B | 公开(公告)日: | 2021-01-12 |
| 发明(设计)人: | 汪鹏;肖君彦;孟越 | 申请(专利权)人: | 东南大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/635;G06Q50/00 |
| 代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 蒋昱 |
| 地址: | 210096 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 构建 公平 链接 预测 评估 系统 方法 | ||
1.一种构建公平的链接预测评估系统的方法,具体步骤如下,其特征在于:
1)收集原始数据集的方法:评测系统用以评估不同链接预测方法的测试数据集应是公开、被广泛接受的数据集,使用爬虫程序抓取互联网公开数据集仓库相应网页,并构造网页对应HTML代码的DOM树,依据该DOM树中下载标签对应的超链接爬取满足该要求的数据集,并根据其应用场景将收集得到的数据集分为若干类别;
2)计算每一类别应选数据集数量:有效的评测系统应保证数据集冗余度较小,因此需对每一类别中应选出的作为评测数据集的数据集数量加以限制,每一类别对应的科研文献数量越多,则可说明该类别的研究热度越高,所以该类别所选出的评测数据集数量应比研究热度小的类别所选出的数量要多,以满足有效评估该类别中过往和将来提出的链接预测方法的需求,使用交叉熵来衡量应选数据集数量在类别上的分布与科研文献在类别上的分布之间的相似程度,并以该相似程度为目标函数,使用最优化算法计算得到最优的应选数据集数量在类别上的分布;
3)基于层次聚类的数据集二叉聚类树构建算法:自每一类别选出的评测数据集应具有代表性,亦即选出的评测数据集应与尽可能多的同类数据集相似,为衡量同类数据集间的相似度,采用层次聚类的思想,自顶向下根据同类数据集的数据集特性和网络拓扑属性对同类数据集进行划分进而构建二叉聚类树,其中数据集特性,指网络数据集是否为有向图、是否为时序网络、是否为有权重网络,其中网络拓扑属性,指依据网络拓扑计算出了若干度量的值,其中度量的值包括图的最大度和图的基尼系数;
4)基于最深叶节点优先的数据集选择算法:构建完二叉聚类树后,需根据每一类别对应的聚类树空间结构,从中选取出代表该类别的若干数据集,选择过程自聚类树根节点的较大子节点开始,递归地对每一非叶节点选择代表该非叶节点的数据集,直到已选择出2)中所计算出的该类别应选数据集数量的数据集为止;
5)基于最优子集回归的数据集难度系数度量:设定数据集的难度系数值与其网络拓扑结构的若干不同度量值线性相关,其中度量的值包括图的最大度和图的基尼系数,从1)中收集出的所有数据集中简单抽样出若干数据集,并利用若干经典的链接预测方法在这些数据集上的实验表现,使用最优子集回归法建立数据集难度系数值与网络拓扑结构度量值之间的线性关系,将得到的难度系数值进行0-1标准化,并将0-1区间划分为5个部分,分别为难、中难、中等、中易、易,对4)中选择出的数据集进行难度标定;
6)生成测试数据集:由于所有评测数据集均为公开获取的,为保证公平性,需对评测数据集进行变换,以生成供评估新链接预测方法的测试数据集;
变换方法如下:首先使用一对一随机映射将评测数据集中的顶点标号进行替换,然后打乱替换后的数据集中每一条边的记录,最后按照7-2-1原则对数据集进行划分,得到供训练的训练集、验证集和供评估的测试集,此变换保证了无法根据提供的训练集和验证集和网上公开的原始数据集推测出测试集,并且变换前后不影响预测结果;
7)操作数据集:提供了三个操作数据集的API:1. 网络连通性:提供了自动获取最大连通分量的API;2. 节点度:提供了根据节点度获得子图的API;3. 聚集系数:提供了根据节点聚集系数获得子图的API;
8)结果评估:在各类别中满足需评估的链接预测方法要求的测试数据集上运行该链接预测方法,使用AUC和准确率作为实验结果度量,结合各评测数据集的难度系数,给出最终的结果评估,根据链接预测方法在各类别测试数据集上的表现差异,评估预测方法的通用性。
2.根据权利要求1所述的一种构建公平的链接预测评估系统的方法,其特征在于:所述步骤2)中的最优化算法,在数据集类数10且每一类应选数据集的数量变化区间长度8的情况下,直接使用网格搜索法获得全局最优解,如果复杂度高于上述情况,则可使用遗传算法作为最优化算法进行求解。
3.根据权利要求1所述的一种构建公平的链接预测评估系统的方法,其特征在于:步骤3)中的层次聚类,根据网络拓扑属性对节点进行划分时,利用的是基于欧几里得距离的2-mean聚类算法。
4.根据权利要求1所述的一种构建公平的链接预测评估系统的方法,其特征在于:步骤5)中的难度系数,其绝对数值无直接意义,但不同数据集的难度系数值之间的相对数量关系可用来反映不同数据集之间的难度差异。
5.根据权利要求1所述的一种构建公平的链接预测评估系统的方法,其特征在于:步骤8)中的AUC,指的是ROC曲线下的面积,ROC曲线是描述真正例率和假正例率之间数量关系的曲线。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810812169.5/1.html,转载请声明来源钻瓜专利网。





