[发明专利]一种基于图集重构与图核降维的图分类方法在审

专利信息
申请号: 201710135123.X 申请日: 2017-03-08
公开(公告)号: CN106991132A 公开(公告)日: 2017-07-28
发明(设计)人: 邵文晔;马廷淮;曹杰;薛羽 申请(专利权)人: 南京信息工程大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 江苏爱信律师事务所32241 代理人: 唐小红
地址: 210044 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 图集重构 图核降维 分类 方法
【说明书】:

技术领域

发明涉及到频繁子图挖掘、图核映射、分类器构建等方面,具体涉及的是一种基于图集重构与图核降维的图分类方法,属于机器学习与数据挖掘技术领域。

背景技术

随着数据挖掘在情报学、生物信息学、网络入侵检测等多领域的应用,越来越多的数据呈现出结构化强、数据间关系复杂等新特点,如电路、图像、化合物、蛋白质结构、生物学网络等。图作为一种数据结构类型,可以用来清晰地描述各种事物以及它们之间的相互关系。如生物信息学领域,生物学家希望找到频繁出现的与有毒物质具有相同子结构的物质,此时分子结构可以被描述为图结构,其中的分子对应图中的顶点,而分子间的化学键则可表示为图中对应的边,通过对分子结构图集的挖掘,可以预先发现分子结构之间的内在关系或共享模式,从而实现对未知物质的毒性分类。

图分类作为图挖掘领域的一个分支,它的主体学习思想与传统数据分类类似,都是通过对已获得分类标记的图数据进行学习,从而建立出分类模型,再通过这个模型实现对新获得的未知标记的图数据进行类别预测。图分类总体上可以分为基于核函数的分类方法与基于特征向量构造的分类方法两类。

基于核函数的图分类方法的核心思想是通过一种非线性映射将图结构的数据映射到高维特征空间,然后利用线性学习的方法在新空间分析和处理数据。基于核函数的图分类方法无需提前知道非线性映射的具体形式与参数,而是引入核函数,通过改变核函数的形式与参数,隐式地实现从图数据到高维特征空间的映射,利用图核函数,可以获得用于描述图与图之间相似性的矩阵(Marginalized kernels between labeled graphs.Kashima,H.,Tsuda,K.,Inokuchi,A.)。尽管基于核函数的图分类方法的分类性能较好,但是由于其计算中所不可避免的NP问题,因此该方法只适合于小规模的图数据集,扩展性能较差。

基于特征向量构造的图分类方法是事先选定一个划分标准,然后将每一张图数据按照这个标准转化为向量型数据,再利用传统的分类方法对其进行分类。基于特征的图分类方法又可以细化为基于频繁子图特征的分类方法和基于理论指标特征的分类方法。基于频繁子图特征的分类方法主要步骤为频繁子图挖掘、选择分类特征、构造分类模型。为了获得更高的分类性能,从频繁子图模式集中选择有判别力的特征模式是一个关键问题(MoSS:a program for molecular substructure mining.Borgelt,Christian,Meinl)。基于理论指标特征的分类多以特征路径长度、聚类系数、介数等作为刻画图数据信息的统计量(Classifying Graphs Using Theoretical Metrics:A Study of Feasibility.Zhu L,Ng W K,Han S),或是各自特定领域的专家应用他们的专业背景知识指定出物理化学特征(如分子重量、分子密度等)作为划分标准,虽然这样可以避免过拟合,算法简单易造,但是容易丢失结构信息,而且需要过强的专业知识,普适性差。

本发明基于现有图分类方法的研究成果与存在的问题,提出一种基于图集重构与图核降维的图分类方法,利用频繁子图中判别性强的子图重构原图集,然后对重构好的新图集采用图核映射至高维空间,并采用基于类别的特征选择方法对高维核矩阵降维,最后以此训练分类器。该方法可以高效且准确地实现对图数据的分类。

发明内容

本发明所要解决的技术问题是图数据的分类问题,提出一种基于图集重构与图核降维的图分类方法。该方法利用判别性较强的频繁子图重构原图集,有效地降低了原始图集的规模,通过Weisfeiler-Lehman最短路径图核函数将图集映射到高维空间,并采用KFDA算法对高维核矩阵进行降维,在降维的同时考虑了图的类别信息,提升了后续分类的准确性。

本发明提供一种基于图集重构与图核降维的图分类方法,该方法包括训练和应用两个阶段,具体包括如下步骤:

步骤1),对用于训练的图数据集进行频繁子图挖掘,对找出的频繁子图,以其在正负两类中出现的频度差的大小作为判别性指标,进行判别性子图筛选;

步骤2),根据步骤1)筛选出的具有判别性的频繁子图,重构原图集;

步骤3),根据步骤2)中重构好的新图集,采用Weisfeiler-Lehman最短路径核方法获得用于描述图集中每两个图之间相似性的核矩阵,并利用训练图的类标签信息,采用KFDA(Kernel Fisher Discriminant Analysis)方法对高维核矩阵降维;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710135123.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top