[发明专利]一种构建公平的链接预测评估系统的方法有效

专利信息
申请号: 201810812169.5 申请日: 2018-07-23
公开(公告)号: CN109086373B 公开(公告)日: 2021-01-12
发明(设计)人: 汪鹏;肖君彦;孟越 申请(专利权)人: 东南大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/635;G06Q50/00
代理公司: 南京众联专利代理有限公司 32206 代理人: 蒋昱
地址: 210096 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种可构建公平有效评估不同链接预测方法评测系统的方法。提出了一种自动收集、选取和生成测试数据集的通用方法,其中包含两种算法:基于层次聚类的数据集二叉聚类树构建算法和基于最深叶节点优先的数据集选择算法。提出了一种基于网络拓扑指标的数据集难度系数度量方法,其中利用了最优子集回归算法进行难度系数的科学度量。提供了一套易用的访问接口和操作数据集的API的设计标准和具体实现,使得新链接预测方法可方便地进行评测。相较于其他评测方法,本发明方法可公平地比较不同链接预测方法之间的性能优劣,并且能够有效地评估链接预测方法的通用性。
搜索关键词: 一种 构建 公平 链接 预测 评估 系统 方法
【主权项】:
1.一种构建公平的链接预测评估系统的方法,具体步骤如下,其特征在于:1)收集原始数据集的方法:评测系统用以评估不同链接预测方法的测试数据集应是公开、被广泛接受的数据集,使用爬虫程序抓取互联网公开数据集仓库相应网页,并构造网页对应HTML代码的DOM树,依据该DOM树中下载标签对应的超链接爬取满足该要求的数据集,并根据其应用场景将收集得到的数据集分为若干类别;2)计算每一类别应选数据集数量:有效的评测系统应保证数据集冗余度较小,因此需对每一类别中应选出的作为评测数据集的数据集数量加以限制,每一类别对应的科研文献数量越多,则可说明该类别的研究热度越高,所以该类别所选出的评测数据集数量应比研究热度小的类别所选出的数量要多,以满足有效评估该类别中过往和将来提出的链接预测方法的需求,使用交叉熵来衡量应选数据集数量在类别上的分布与科研文献在类别上的分布之间的相似程度,并以该相似程度为目标函数,使用最优化算法计算得到最优的应选数据集数量在类别上的分布;3)基于层次聚类的数据集二叉聚类树构建算法:自每一类别选出的评测数据集应具有代表性,亦即选出的评测数据集应与尽可能多的同类数据集相似,为衡量同类数据集间的相似度,采用层次聚类的思想,自顶向下根据同类数据集的数据集特性和网络拓扑属性对同类数据集进行划分进而构建二叉聚类树;4)基于最深叶节点优先的数据集选择算法:构建完二叉聚类树后,需根据每一类别对应的聚类树空间结构,从中选取出代表该类别的若干数据集,选择过程自聚类树根节点的较大子节点开始,递归地对每一非叶节点选择代表该非叶节点的数据集,直到已选择出2)中所计算出的该类别应选数据集数量的数据集为止;5)基于最优子集回归的数据集难度系数度量:设定数据集的难度系数值与其网络拓扑结构的若干不同度量值线性相关,从1)中收集出的所有数据集中简单抽样出若干数据集,并利用若干经典的链接预测方法在这些数据集上的实验表现,使用最优子集回归法建立数据集难度系数值与网络拓扑结构度量值之间的线性关系,将得到的难度系数值进行0‑1标准化,并将0‑1区间划分为5个部分,分别为难、中难、中等、中易、易,对4)中选择出的数据集进行难度标定;6)生成测试数据集:由于所有评测数据集均为公开获取的,为保证公平性,需对评测数据集进行变换,以生成供评估新链接预测方法的测试数据集;7)操作数据集:提供了三个操作数据集的API:1. 网络连通性:提供了自动获取最大连通分量的API;2. 节点度:提供了根据节点度获得子图的API;3. 聚集系数:提供了根据节点聚集系数获得子图的API8)结果评估:在各类别中满足需评估的链接预测方法要求的评测数据集上运行该链接预测方法,使用AUC和准确率作为实验结果度量,结合各评测数据集的难度系数,给出最终的结果评估,根据链接预测方法在各类别评测数据集上的表现差异,评估预测方法的通用性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810812169.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top