[发明专利]一种基于“用归并算法计算一对一join、一对多join”的对位分段并行方法在审
申请号: | 201710950911.4 | 申请日: | 2017-10-13 |
公开(公告)号: | CN107657050A | 公开(公告)日: | 2018-02-02 |
发明(设计)人: | 蒋步星 | 申请(专利权)人: | 北京润乾信息系统技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 归并 算法 计算 一对一 join 一对 对位 分段 并行 方法 | ||
技术领域
本发明涉及并行计算一对一join、一对多join,更具体地来说,特别涉及一种基于“用归并算法计算一对一join、一对多join”的对位分段并行方法。
背景技术
随着全球对知识产权的重视,其中发明专利的发展趋势越来越好,各行业各领域申请授权的发明专利的数量日趋庞大,特别是机械、生物、化工、医药、互联网行业更是如此。面对这些大量的已经授权的发明专利,合理利用这些现有的已知技术显的重中之重。于是出现了很多利用遗传资源衍生出的发明专利,利用现有的已经授权的已知技术进行技术层面的改造升级等。本发明正是基于发明“一种用归并算法计算一对一join、一对多join的方法”衍生出来的。
依据专利法的要求,陈述本发明专利直接来源是申请号为201710931999.5的发明专利,申请号为201710931999.5的发明专利在申请过程中提前公布,与本发明专利申请人同为“北京润乾信息系统技术有限公司”,发明人蒋步星,发明人通过对申请号为201710931999.5的发明专利深入的研究,在原有专利技术层面上进行了突破。本发明专利应用于难以实现的并行计算一对一join、一对多join。
由于单核CPU速度提升的局限性,提升计算机速度的主要途径是使用多核CPU。多核CPU的普及对数值计算的发展产生了历史性的改变,由于多核和单核CPU设计理念的不同,单核CPU上运行良好的软件或者以前的算法不能使多核CPU发挥其最大效能,要想高效利用多核CPU,就必须改进原有的老程序,融进并行算法的思想。把原来串行的计算改成并行的计算,如果要并行计算,就需要每个线程分别处理一部分数据,所以要把数据分段给各个线程。
有时为了得到完整的结果,我们需要从两个或更多的数据集中获取结果。我们就需要执行join计算。
一对一join的关系是两个数据集之间的一种关系,该关系中第一个数据集中的单个行与第二个数据集中的单个行相关。如果这两个数据集关联的键都为主键时,称这两个数据集为同维数据集。
一对多join的关系是两个数据集之间的一种关系,该关系中第一个数据集中的单个行与第二个数据集中的一个或多个行相关,但第二个数据集中的一个行只可以与第一个数据集中的一个行相关。如果在应用中,某个数据集包含了一片或者多片区域,每一片区域都针对同一个对象,但是各区域又各自展示不同的主题,像这样的一对多join关系我们称之为主子数据集。其中每一小片区域称为子数据集,子数据集构成的数据集整体称为主数据集。主子数据集的特点是子数据集的关联键是主数据集关联主键的一部分。
数据集可通过键将彼此联系起来。主键(Primary Key)是一个列,在这个列中的每一行的键值都是唯一的。在数据集中,每个主键的键值都是唯一的。这样做的目的是在不重复每个数据集中的所有数据的情况下,把数据集间的数据交叉捆绑在一起。
大数据量一对一join、一对多join的外存并行计算时,为什么不能两个数据集分别单独分段呢?因为两个数据集是关联的join关系,如果分别单独分段,分完可能会发生数据错位,导致两个数据集对不上,所以不能分别单独分段。
目前现有的大数据量一对一join、一对多join的外存并行计算技术有以下方法:先把需要计算一对一join、一对多join的数据分区,然后每个区分别用hash计算一对一join、一对多join,最后把计算结果合并。缺点是分区的数量是计算前固定了,然后并行计算的线程数不一定能和分区数相等,不相等的情况下会造成计算能力的损失。如果线程数大于分区数时,每个区对应一个线程,多余的线程会闲置;如果线程数小于分区数时,不能保证每个区对应一个线程,造成有些分区只能串行计算,计算机为了平衡各线程计算力,需要把分区分的很碎,这样增加了管理的复杂度。还有个缺点是,传统hash join算法并行处理大数据时会出现向外存并发写入的动作,并发写入外存的效率很低。
针对上述问题,发明了一种基于“用归并算法计算一对一join、一对多join”的对位分段并行方法,解决了目前难以解决的大数据量一对一join、一对多join的外存并行计算技术的难题。
发明内容
为了克服前述问题,本发明的目的在于提供一种基于“用归并算法计算一对一join、一对多join”的对位分段并行方法。
一种基于“用归并算法计算一对一join、一对多join”的对位分段并行方法,实施条件为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京润乾信息系统技术有限公司,未经北京润乾信息系统技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710950911.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:弹波制成机的自动收料机构
- 下一篇:动静刚度疲劳试验机的夹具