[发明专利]一种基于分布式计算的数据依赖挖掘方法及系统有效

专利信息
申请号: 201811061441.7 申请日: 2018-09-12
公开(公告)号: CN109325062B 公开(公告)日: 2020-09-25
发明(设计)人: 王宏志;张翔熙 申请(专利权)人: 哈尔滨工业大学
主分类号: G06F16/2458 分类号: G06F16/2458
代理公司: 北京格允知识产权代理有限公司 11609 代理人: 周娇娇;李亚东
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 分布式 计算 数据 依赖 挖掘 方法 系统
【权利要求书】:

1.一种基于分布式计算的数据依赖挖掘方法,其特征在于,包括以下步骤:

数据重分配步骤、根据原始数据集生成属性相似倒排表;

一阶依赖挖掘步骤、根据所述属性相似倒排表挖掘一阶数据依赖关系;

高阶依赖挖掘步骤、逐级进行高阶数据依赖关系的挖掘,其中生成高阶数据依赖候选集,并基于挖掘的低阶数据依赖关系对高阶数据依赖候选集进行剪枝,利用属性相似倒排表对剪枝后的高阶数据依赖候选集中的高阶数据依赖关系进行验证;

所述数据重分配步骤包括:

为原始数据集的每条数据指定或生成一个数据ID,对于每条数据,将数据ID、属性编号、属性的值作为一个三元组进行储存;对所有的数据处理完毕后,按照属性编号进行重分配,其中每个属性编号对应一个子数据库,记录了该属性下所有源数据的三元组的数据ID与属性的值;

对重分配后的数据集进行与自身的笛卡尔积处理,把原本的数据转换为数据对;对每一个数据对进行筛选,找到每一个数据对满足相似关系的属性;把不同属性上的信息按照数据ID进行聚合,对于每一个数据对,输出这一个数据对满足相似约束的属性集合作为属性相似倒排表。

2.根据权利要求1所述的方法,其特征在于,所述数据重分配步骤在进行笛卡尔积处理之前,对于数据集先进行一次分块操作,先对数据块进行配对,再逐对地进行并行的笛卡尔积处理;其中调节块的大小使得每两块之间的笛卡尔积能容纳在并行的一个计算节点之内。

3.根据权利要求1所述的方法,其特征在于,所述一阶依赖挖掘步骤包括:

对于属性相似倒排表中的数据对(i,j)的满足相似约束的属性集合Aij,生成笛卡尔积并将结果汇总到一阶排除列表中;其中属性对应了所有属性相似关系图中属性的集合;

消除一阶排除列表中的重复元素,得到需排除的一阶数据依赖关系;

用笛卡尔积生成一阶数据依赖关系候选集,并在消除对角元素后得到非平凡的一阶数据依赖关系候选集;

在所述非平凡的一阶数据依赖关系候选集中减去需排除的一阶数据依赖关系,得到挖掘出的一阶数据依赖关系。

4.根据权利要求1所述的方法,其特征在于,所述基于挖掘的低阶数据依赖关系对高阶数据依赖候选集进行剪枝,具体为:对于在挖掘出的低阶数据依赖关系的左边增加一个属性得到的关系式,将其排除出高阶数据依赖候选集。

5.根据权利要求1所述的方法,其特征在于,所述高阶依赖挖掘步骤中还包括以下一种或者多种剪枝处理步骤:

1)基于小样本集的剪枝处理步骤:

按照比例抽取属性相似倒排表的子集,将高阶数据依赖候选集中的每个高阶数据依赖关系在该子集上进行验证,当不成立时排除出高阶数据依赖候选集;

2)基于探测集的剪枝处理步骤:

随机生成部分高阶数据依赖关系,将所述部分高阶数据依赖关系在该属性相似倒排表上进行验证,将不成立的作为探测集;检测高阶数据依赖候选集中的每个高阶数据依赖关系是否被探测集中的高阶数据依赖关系所覆盖,是则将其排除出高阶数据依赖候选集;

3)基于不可信度的剪枝处理步骤:

随阶数动态规划近似计算一个高阶数据依赖关系的不可信度;

设置对于不可信度的上限,将不可信度高于上限的高阶数据依赖关系排除出高阶数据依赖候选集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811061441.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top