[发明专利]面向大规模不确定图数据库的子图查询方法无效
| 申请号: | 201010616603.6 | 申请日: | 2010-12-30 |
| 公开(公告)号: | CN102073708A | 公开(公告)日: | 2011-05-25 |
| 发明(设计)人: | 王国仁;王斌;袁野;信俊昌 | 申请(专利权)人: | 东北大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 沈阳东大专利代理有限公司 21109 | 代理人: | 梁焱 |
| 地址: | 110004 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 面向 大规模 不确定 数据库 查询 方法 | ||
技术领域
本发明属于数据库领域,特别涉及面向大规模不确定图数据库的子图查询处理技术。
背景技术
在过去的几十年里,传统的确定数据管理(certain data management)技术得到了极大的发展,造就了一个几百亿的数据库产业,数据库技术和系统已经成为建设信息化社会基础设施的重要支撑。近年来,随着传感器网络、Web服务和RFID技术等的快速发展,在这些应用中不确定数据(uncertain data)无所不在,而且数据特征纷繁复杂。因此传统的数据库管理计算已经无法满足这样一种数据库管理的需求。
另外现有的数据管理技术的范围逐渐延伸到科学与工程领域,如:计算化学、生物信息学等。而这些领域的数据具有结构化的特征,通常用图结构描述此类数据,因为图可以很好的表示存在多种关联的数据以及内部具有一定结构的数据。例如,在化学领域中,可以采用无向标号图表示化合物的拓扑结构,图中的节点表示化合物的原子,节点的标号表示不同的原子类型,图中的边表示化合物的内部化合键,边的标号表示不同化合键的类型。在生物信息学中,可以采用图结构描述各种网络,如蛋白质交互网络、基因相关网络等。因此如何高效地管理图数据,特别是子图查询已得到国内外的广泛关注。目前一些图数据的原型系统相继被开发出来,例如华盛顿州立大学开发的suBDuE系统(http://allab.wsu.edu/subdu),卢布尔雅那大学的P ajek系统(http://Pajek.ilr)以及意大利卡塔尼亚大学和纽约大学联合开发的GraPhGrep系统等等。
然而这些图数据本身具有不确定性。例如,由于实验仪器的错误和不准确性,获取蛋白质交互网络(PPI)的实验可使图数据含有噪声。结果图数据可能包含实际中不存在的交互,同时也可能丢失真实存在的交互。因此可使用不确定图(uncertain graph)来表示一个PPI网络,其中顶点代表蛋白质,每边赋予一概率表示蛋白质间存在交互的可能性。STRING数据库(http://string-db.org)是一个公共的存储带不确定边的PPI数据源。在分析未知蛋白质结构时,生物学家通常要把它们的PPI网络与已知的PPI网络进行比较,以确定未知蛋白质的所属类别和特性。这个方法即是子图查询:用未知的子图结构(未知PPI网络)去查询已知图数据结构(已知PPI)网络,以判断子图结构所属的图数据。而传统对确定图(certain graph)数据的子图查询技术不能处理不确定图数据,从而对未知蛋白质归类时造成不准确。为此如何高效地处理不确定图数据子图查询是一个亟待解决的问题。
发明内容
针对现有技术存在的问题,本发明提供一种面向大规模不确定图数据库的子图查询方法。
本发明采用的技术方案是:对于一个不确定图数据库D={g1,Λgn}和一个查询图q,处理概率子图查询时,首先对不确定数据库D进行结构化过滤,然后对结构化过滤剩下的不确定图数据库进行概率过滤,最后验证候选集,得出最终查询结果。
本发明主要包括以下步骤:
步骤一:结构化过滤
定义1(不确定图)设gc=(V,E,∑,L)是一个无向确定图,其中,V是顶点集,E是边集,∑是标签集,L:VYE →∑是为顶点和边分配标签的函数。一个不确定图定义为g=(gc,PV,PE),其中PV:V→[0,1]是为V中顶点分配概率的函数,PE:E →[0,1]是为E中的边分配概率的函数。在蛋白质交互(PPI)网络中,一个顶点表示一个蛋白质元素,一条边表示元素之间的作用,标签表示蛋白质元素的类别,概率表示元素存在的可能性。
定理1:对于g∈D,设gc表示g移除所有不确定信息后相应的确定图,如果 则
基于定理1,首先输入查询图q、不确定图数据库D和查询阈值ε,去掉不确定图数据库D中的每一个图g的概率分布,使用现有的对确定图数据库 子图查询过滤的方法,判断结果图是否包含查询图q,如果结果图包含查询图q,则该不确定图g即被过滤掉,如果结果图不包含查询图q,则该不确定图g输入下一步进行概率过滤。设结构化过滤后剩余确定图集合为 其相应的不确定图集合 即下一步概率过滤的输入。
步骤二:概率过滤
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010616603.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:五元环化合物
- 下一篇:挖掘机自适应控制方法





