[发明专利]基于PME图模型的一对一型PSJ聚集查询方法有效

专利信息
申请号: 201711208879.9 申请日: 2017-11-27
公开(公告)号: CN108121765B 公开(公告)日: 2020-07-17
发明(设计)人: 陈岭;王俊凯 申请(专利权)人: 浙江大学
主分类号: G06F16/2455 分类号: G06F16/2455
代理公司: 杭州天勤知识产权代理有限公司 33224 代理人: 胡红娟
地址: 310013 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 pme 模型 一对一 psj 聚集 查询 方法
【说明书】:

发明公开了一种基于PME图的一对一型PSJ聚集查询方法。具体步骤包括:1)首先利用PME图模型将一对一型PSJ建模为一个树状PME图;2)其次基于动态规划思想先计算出子树的聚集值概率分布,然后在子树的结果上计算出整棵树的聚集值概率分布;3)在计算概率分布的过程中,引入生成函数方法,并基于分治策略计算多个生成函数的乘积。本发明充分考虑一对一型PSJ的依赖关系,在PME图模型的基础上,解决了一对一型PSJ的COUNT查询和SUM查询问题,在数据库、联机分析处理以及数据仓库中具有广阔的应用前景。

技术领域

本发明涉及概率型相似性连接(Probabilistic Similarity Join,PSJ)的聚集查询领域,具体涉及基于概率互斥图(Probabilistic Mutual Exclusion Graphs,PME图)模型的一对一型PSJ聚集查询方法。

背景技术

连接聚集查询在数据库、联机分析处理以及数据仓库中应用广泛,此类查询通常先采用连接操作将多张关系表合并起来,然后再执行聚集运算。然而,由于信息时代数据爆炸式增长,数据本身的不确定性以及数据采集和集成过程中引入的不确定性,导致大量数据具有不完整性和模糊性。不确定性数据的存在常常使得多表之间无法连接,进而导致基于连接操作的聚集查询失败。

PSJ查询基于相似性度量函数,能够将相似的元组连接起来,有效解决了不确定性数据的连接问题。按照映射约束的不同,PSJ可分为三类:一对一型PSJ、一对多型PSJ和多对多型PSJ。然而,PSJ查询的原始结果通常为一组带概率的连接,这组连接并不满足映射约束。从这组PSJ连接中选取出部分连接,使其满足映射约束,则该部分连接同时出现的状态称为一个可能世界,该可能世界的概率为该部分连接同时出现的联合概率。在PSJ连接上执行聚集查询,实质上是对所有可能世界求聚集值。但是,PSJ连接的可能世界数量众多,基于PSJ的聚集查询面临挑战。

在PSJ上做聚集查询的方法较少。部分方法通过限制连接条数或者划定概率阈值来减少可能世界数量,但是这些方法不但丢失了大量信息,而且不考虑映射约束。有方法在考虑映射约束的情况下,基于动态规划思想解决了一对一型PSJ的聚集查询问题。但是该方法需逐个计算聚集值的概率,效率较低,因此在一对一型PSJ上做聚集查询的方法仍存在较大优化空间。

发明内容

本发明的目的是提供一种基于PME图模型的一对一型PSJ聚集查询方法,该方法能够在保证查询信息质量的前提下,极大地提升聚集值的计算效率,缩短一对一型PSJ聚集查询时间。

为实现上述目的,本发明提供的技术方案为:

本发明实施方式提供了一种基于PME图模型的一对一型PSJ聚集查询方法,包括以下步骤:

(1)基于PME图模型,将PSJ作为顶点,互斥关系作为边,构造树状PME图,所述树状PME图包括叶子极大团、中间极大团以及根极大图,基于聚集查询谓词条件为所述树状PME图的顶点添加属性;

(2)基于步骤(1),计算所述树状PME图的聚集值概率分布。

上述技术方案中,采用概率互斥图模型为PSJ建模,无需划定概率阈值,也无需限定连接条数,保全了数据之间的依赖关系,能够保证查询信息的质量。

为了更准确对PSJ构造树状PME图,在构造树状PME图前,采用Kruskal算法删除PSJ构成的二分图中的回路,构造所述PSJ的最大生成树,并基于所述最大生成树构造所述树状PME图。

所述基于聚集查询谓词条件为顶点添加属性包括:为满足COUNT查询谓词条件的顶点增加标志属性;为满足SUM查询谓词条件的顶点增加求和属性,具体的步骤为:

删除不满足聚集查询谓词条件的私有顶点,其他顶点都保留;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711208879.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top