[发明专利]一种基于图覆盖的大数据全比较的数据分配方法及系统有效
| 申请号: | 201710751446.1 | 申请日: | 2017-08-28 |
| 公开(公告)号: | CN107506452B | 公开(公告)日: | 2020-05-08 |
| 发明(设计)人: | 张雪英;李凤莲;田玉楚;李彦民;焦江丽;高燕军 | 申请(专利权)人: | 太原理工大学 |
| 主分类号: | G06F16/27 | 分类号: | G06F16/27 |
| 代理公司: | 北京高沃律师事务所 11569 | 代理人: | 王戈 |
| 地址: | 030000 *** | 国省代码: | 山西;14 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 覆盖 数据 比较 分配 方法 系统 | ||
本发明公开一种基于图覆盖的大数据全比较的数据分配方法及系统,所述数据分配方法包括:将M个待处理数据文件抽象为图的顶点,任意两个待处理数据文件之间的比较计算抽象为图的边,将M个待处理数据文件的全比较计算映射为一个完全图GM;将完全图GM划分为N个诱导图,且各诱导图的联合能够覆盖完全图GM以及使max{|V1|,|V2|,...,|VN|}最小化;根据各诱导图确定最优覆盖解;根据所述最优覆盖解,依次将待处理数据分配到各计算节点。本发明通过待处理数据文件抽象为图的顶点,比较计算抽象图的边,从而将待处理数据文件的全比较计算映射为一个完全图,将图覆盖方法引入,来解决全比较计算的数据分配问题,并进一步通过划分诱导图确定最优覆盖解,实现数据分配的全局最优性。
技术领域
本发明涉及大数据分布式计算的数据分配技术领域,特别是涉及一种基于图覆盖的大数据全比较的数据分配方法。
背景技术
全比较是一类特殊的计算问题,广泛存在于生物信息学、生物测定学、数据挖掘等领域。在生物信息学中,谱系关系通过比较不同物种的基因序列来做推断。在生物测定学的研究中,一个典型的全比较问题是通过对生物测定学数据库中的大量数据进行成对比较来识别人的生理特征,如面部识别,指形判断,手掌扫描。在数据挖掘中,相似矩阵的计算是分类和聚类分析中的一个关键步骤,相似矩阵表示被考虑对象之间的相似度。序列比对,聚类分析,以及当前的研究热点全局网络比对都属于计算生物学和生物信息学中典型的全比较计算问题。
全比较计算代表了一种典型的计算模式,即数据集中的每个数据都要和该数据集中的其它所有的数据做一次比较计算。当数据集中的文件个数或者文件所包含的数据变大时,全比较计算的规模随之变大。当前,针对一些特定领域的全比较问题,已经提出了解决方法,如著名的BLAST和ClustalW。此外,分布式系统,如开源的分布式处理框架Hadoop,被广泛地用于解决大规模的数据密集型的计算问题,包括全比较计算。在最近的几年里,有人提出,把全比较计算的数据分配问题抽象为带约束条件的组合优化问题,并利用启发式算法来求最优解。
但是,现有的方法要求系统中的每个节点上存储所有的数据文件,严重地增加了时间开销和通信成本,而且需要巨大的存储空间。此外,Hadoop的数据分配策略,由于没有考虑比较任务和数据之间的依赖关系,因此,对于全比较计算效率低。和Hadoop相比,基于启发式算法的数据分配策略,提高了整体的计算性能。但是,随着数据量的增大,解空间的变大,问题规模呈指数级增长。此外,启发式算法无法保证解的全局最优性。
发明内容
本发明的目的是提供一种基于图覆盖的大数据全比较的数据分配方法及系统,可确保数据分配的全局最优性。
为实现上述目的,本发明提供了如下方案:
一种基于图覆盖的大数据全比较的数据分配方法,所述数据分配方法包括:
将M个待处理数据文件抽象为图的顶点,任意两个待处理数据文件之间的比较计算抽象为图的边,将M个待处理数据文件的全比较计算映射为一个完全图GM;所述完全图为每对顶点之间连接有一条边形成的图;
将完全图GM划分为N个诱导图,分别为G(V1),G(V2),...,G(VN),且各诱导图的联合能够覆盖完全图GM以及使max{|V1|,|V2|,...,|VN|}最小化;其中,V表示点集合,|VN|表示第N个诱导图中点集合中的点的个数;
根据各诱导图确定最优覆盖解;
根据所述最优覆盖解,依次将待处理数据分配到各计算节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710751446.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于数据交互的异常信息监控方法及装置
- 下一篇:一种乐器演奏O2O方法及系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





