[发明专利]一种针对单个不确定图的频繁子图挖掘与优化方法有效

专利信息
申请号: 201510299659.6 申请日: 2015-06-03
公开(公告)号: CN104899885B 公开(公告)日: 2017-12-05
发明(设计)人: 赵翔;陈一帆;胡艳丽;汤大权 申请(专利权)人: 中国人民解放军国防科学技术大学
主分类号: G06T7/00 分类号: G06T7/00
代理公司: 北京风雅颂专利代理有限公司11403 代理人: 李弘
地址: 410003*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 单个 不确定 频繁 挖掘 优化 方法
【说明书】:

技术领域

发明涉及图挖掘技术,特别地,涉及一种针对单个不确定图的频繁子图挖掘与优化方法。

背景技术

不确定性在现实应用中,无论是对内源还是外源,都是一种固有的属性。例如,在一个合作社交网络中,利用目前掌握的信息,我们未必能明确断言比尔和马修两人具有很好的合作关系,通常我们使用概率来衡量这种合作关系的可能性。假设这种关系存在的概率为p,p的值由本领域专家通过可用信息人工确定,或者由信息抽取或生成规则自动产生。在大数据时代的今天,对于管理不确定数据有更为强烈的需求,因此目前出现了各种质量不一的数据。特别地,我们专注于不确定图,尤其是图的边上具有存在概率的不确定图。不确定图模型具有广泛的应用领域,除了社会网络,不确定图模型还被应用于通信网络,无线传感器网络,蛋白质交互网络以及生物学中的调控网络等。

另一方面,频繁模式挖掘作为数据挖掘领域高度关注的主题,一直持续了近十年,相关研究也取得了长足的进展,其中频繁子图引起了特别的研究兴趣。所谓频繁子图是指从多个小确定图的集合或者单个大确定图中发现的支持度不小于用户给定阈值的子图。频繁子图再刻画确定图的数据特征、分类、聚类以及建立索引方面具有重要作用。

虽然目前对于频繁子图及其在确定图上挖掘的方法已经具有很好的理解,但在不确定图上,这一问题变得更加有趣但也更少被研究。一个不确定图时特殊的边加权图,其中每条边(u,v)上的权重是其存在的概率。最近,研究工作致力于在多个小的不确定图的图集上挖掘频繁子图。但是,该问题在单个大型不确定图中虽然同等重要,因为现实生活中的大型网络越来越多地出现了不确定性——比如,在社会网络中一个人对另一个人的影响是具有概率的;在生物网络中的蛋白质交互情况也有一定测量误差——但现有技术在本方面是一片空白。

针对现有技术中缺乏针对单个不确定图的频繁子图挖掘与优化技术方案的问题,目前尚缺乏有效的解决方案。

发明内容

针对现有技术中缺乏针对单个不确定图的频繁子图挖掘与优化技术方案的问题,本发明的目的在于提出一种针对单个不确定图的频繁子图挖掘与优化方法,能允许针对单个不确定图进行频繁子图挖掘并优化挖掘算法,填补了本领域的技术空白。

基于上述目的,本发明提供的技术方案如下:

根据本发明的一个方面,提供了一种针对单个不确定图的频繁子图挖掘与优化方法,包括:

获取单个不确定图;

根据单个不确定图枚举出单个不确定图的所有子图;

在单个不确定图的所有蕴含图中指定部分蕴含图为样本图;

在样本图集合中设定多个检查点,多个检查点将样本图集合分割为多个部分样本图集合,并依次指定每个检查点;

使用计算重用方法分别计算单个不确定图的被指定检查点覆盖的部分样本图集合中每个样本图的存在概率,并使用计算重用方法计算每个子图在被指定检查点覆盖的部分样本图集合中每个样本图上的期望支持度;

根据每个子图在被指定检查点覆盖的部分样本图集合中每个样本图上的期望支持度与单个不确定图的每个样本图的存在概率,判定该子图是频繁子图、不是频繁子图、或不确定是不是频繁子图,若判定该子图是频繁子图或不是频繁子图则停止该子图的相关运算,若判定该子图不确定是不是频繁子图则继续指定下一个检查点并根据下一个被指定检查点覆盖的部分样本图集合重新进行判定直到每个检查点都被指定过,其中,对最末被指定的检查点覆盖的部分样本图集合进行判定时一定不会得出不确定的判定结果;

输出所有频繁子图。

其中,使用计算重用方法分别计算单个不确定图的被指定检查点覆盖的部分样本图集合中每个样本图的存在概率,并使用计算重用方法计算每个子图在被指定检查点覆盖的部分样本图集合中每个样本图上的期望支持度,为根据单个不确定图构造重用树,为单个不确定图的被指定检查点覆盖的部分样本图集合中每个样本图中的每条嵌入边构建反向索引,并根据重用树与反向索引分别计算单个不确定图的被指定检查点覆盖的部分样本图集合中每个样本图的存在概率与每个子图在被指定检查点覆盖的部分样本图集合中每个样本图上的期望支持度。

并且,根据单个不确定图构造重用树,为从单个不确定图上选取一根节点,根据一条嵌入边的存在与否生成第一层二叉树,再根据根节点的子节点上嵌入边的存在与否生成第二层二叉树,如此重复直到单个不确定图上所有节点与嵌入边的二叉树形式均被重用树包括。

另外,根据单个不确定图枚举出单个不确定图的所有子图包括:

从单个不确定图提取出多个蕴含图,每个蕴含图都是单个不确定图可能的存在方式;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510299659.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top