[发明专利]一种基于分布式计算的数据依赖挖掘方法及系统有效
| 申请号: | 201811061441.7 | 申请日: | 2018-09-12 |
| 公开(公告)号: | CN109325062B | 公开(公告)日: | 2020-09-25 |
| 发明(设计)人: | 王宏志;张翔熙 | 申请(专利权)人: | 哈尔滨工业大学 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
| 代理公司: | 北京格允知识产权代理有限公司 11609 | 代理人: | 周娇娇;李亚东 |
| 地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 分布式 计算 数据 依赖 挖掘 方法 系统 | ||
1.一种基于分布式计算的数据依赖挖掘方法,其特征在于,包括以下步骤:
数据重分配步骤、根据原始数据集生成属性相似倒排表;
一阶依赖挖掘步骤、根据所述属性相似倒排表挖掘一阶数据依赖关系;
高阶依赖挖掘步骤、逐级进行高阶数据依赖关系的挖掘,其中生成高阶数据依赖候选集,并基于挖掘的低阶数据依赖关系对高阶数据依赖候选集进行剪枝,利用属性相似倒排表对剪枝后的高阶数据依赖候选集中的高阶数据依赖关系进行验证;
所述数据重分配步骤包括:
为原始数据集的每条数据指定或生成一个数据ID,对于每条数据,将数据ID、属性编号、属性的值作为一个三元组进行储存;对所有的数据处理完毕后,按照属性编号进行重分配,其中每个属性编号对应一个子数据库,记录了该属性下所有源数据的三元组的数据ID与属性的值;
对重分配后的数据集进行与自身的笛卡尔积处理,把原本的数据转换为数据对;对每一个数据对进行筛选,找到每一个数据对满足相似关系的属性;把不同属性上的信息按照数据ID进行聚合,对于每一个数据对,输出这一个数据对满足相似约束的属性集合作为属性相似倒排表。
2.根据权利要求1所述的方法,其特征在于,所述数据重分配步骤在进行笛卡尔积处理之前,对于数据集先进行一次分块操作,先对数据块进行配对,再逐对地进行并行的笛卡尔积处理;其中调节块的大小使得每两块之间的笛卡尔积能容纳在并行的一个计算节点之内。
3.根据权利要求1所述的方法,其特征在于,所述一阶依赖挖掘步骤包括:
对于属性相似倒排表中的数据对(i,j)的满足相似约束的属性集合Aij,生成笛卡尔积并将结果汇总到一阶排除列表中;其中属性对应了所有属性相似关系图中属性的集合;
消除一阶排除列表中的重复元素,得到需排除的一阶数据依赖关系;
用笛卡尔积生成一阶数据依赖关系候选集,并在消除对角元素后得到非平凡的一阶数据依赖关系候选集;
在所述非平凡的一阶数据依赖关系候选集中减去需排除的一阶数据依赖关系,得到挖掘出的一阶数据依赖关系。
4.根据权利要求1所述的方法,其特征在于,所述基于挖掘的低阶数据依赖关系对高阶数据依赖候选集进行剪枝,具体为:对于在挖掘出的低阶数据依赖关系的左边增加一个属性得到的关系式,将其排除出高阶数据依赖候选集。
5.根据权利要求1所述的方法,其特征在于,所述高阶依赖挖掘步骤中还包括以下一种或者多种剪枝处理步骤:
1)基于小样本集的剪枝处理步骤:
按照比例抽取属性相似倒排表的子集,将高阶数据依赖候选集中的每个高阶数据依赖关系在该子集上进行验证,当不成立时排除出高阶数据依赖候选集;
2)基于探测集的剪枝处理步骤:
随机生成部分高阶数据依赖关系,将所述部分高阶数据依赖关系在该属性相似倒排表上进行验证,将不成立的作为探测集;检测高阶数据依赖候选集中的每个高阶数据依赖关系是否被探测集中的高阶数据依赖关系所覆盖,是则将其排除出高阶数据依赖候选集;
3)基于不可信度的剪枝处理步骤:
随阶数动态规划近似计算一个高阶数据依赖关系的不可信度;
设置对于不可信度的上限,将不可信度高于上限的高阶数据依赖关系排除出高阶数据依赖候选集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811061441.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于概率分布的异常数据处理方法及装置
- 下一篇:数据管理方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





