[发明专利]使用并行处理执行哈希连接有效
| 申请号: | 201880047106.3 | 申请日: | 2018-07-16 |
| 公开(公告)号: | CN111095193B | 公开(公告)日: | 2022-03-25 |
| 发明(设计)人: | E·P·哈丁;A·D·赖利;C·H·金斯利;S·威斯纳 | 申请(专利权)人: | 奥特瑞克斯股份有限公司 |
| 主分类号: | G06F7/00 | 分类号: | G06F7/00;G06F12/02;G06F16/22 |
| 代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 张立达 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 并行 处理 执行 连接 | ||
本发明公开了使用计算机连接数据记录。对第一多个数据记录和第二多个数据记录中的数据记录进行哈希处理。基于哈希,将第一多个数据记录和第二多个数据记录分别分配给第一分组和第二分组。来自第一分组和第二分组的关联的分组对被提供给在计算机处理器上执行的线程,并且不同的对被提供给不同的线程。线程对分组对并行操作,以确定是否要连接分组中的记录。如果与数据记录关联的哈希匹配,则线程将考虑中的两个数据记录连接在一起。输出经连接的数据记录。
技术领域
本说明书一般地涉及数据处理技术,并且更具体地,涉及以针对并行处理计算机系统(例如,多核处理器)优化的方式执行哈希连接。
背景技术
数据分析平台(例如,大数据分析)的发展已经将数据处理扩展为用于处理大量数据以提取具有商业价值的信息的工具。为此,需要高效的数据处理技术来访问、处理、和分析来自不同数据源的大的数据集。例如,一家小型企业可以利用第三方数据分析环境,该环境采用专用的计算和人力资源来收集、处理、和分析来自各种来源(例如,外部数据提供者、内部数据源(例如,本地计算机上的文件)、大数据存储单元、和基于云的数据(例如,社交媒体信息)。以提取有用的定量和定性信息的方式处理如在数据分析中使用的大数据集通常需要在强大的计算机设备上实现的复杂软件工具。
连接(join)算法是当处理例如上述那些的多个数据集时采用的数据处理技术。现有的数据处理系统可以利用多个连接算法(每个连接算法具有相应的性能折衷)来执行两个集合的数据之间的逻辑连接(例如,哈希连接、嵌套循环、排序归并连接)。例如,哈希连接的预期复杂度为O(M+N),其中,N和M是被连接的两个表的元组数。然而,哈希连接算法可能具有不利的存储器存取模式(例如,随机磁盘存取),并且执行起来也可能很慢。因此,当处理连接算法时,现有的数据处理系统遭受性能问题。
发明内容
通过用于连接数据记录的方法、计算机、和非暂时性计算机可读存储器解决了以上问题和其他问题。使用计算机来连接数据记录的方法的实施例包括:识别第一多个数据记录和第二多个数据记录;以及为第一多个数据记录和第二多个数据记录中的每个数据记录计算哈希。该方法还包括基于所计算的哈希,将第一多个数据记录中的数据记录分配给来自第一集合的分组的分组,并且基于所计算的哈希,将第二多个数据记录中的数据记录分配给来自第二集合的分组的分组。其中,第二集合的分组中的每个分组与第一集合的分组中的相应分组相关联。该方法还包括:基于哈希值,确定是否要将来自第一集合的分组的分组中的相应数据记录与来自第二集合的分组的相关联的分组中的相应数据记录进行连接,以及响应于确定要将来自第一集合的分组的分组中的相应数据记录与来自第二集合的分组的相关联的分组中的相应数据记录进行连接,连接相应数据记录。该方法还包括输出经连接的数据记录。
用于连接数据记录的计算机的实施例包括至少一个计算机处理器和存储计算机程序指令的非暂时性计算机可读存储器,该计算机程序指令可由处理器执行以执行操作。所述操作包括:识别第一多个数据记录和第二多个数据记录;以及为第一多个数据记录和第二多个数据记录中的每个数据记录计算哈希。该操作还包括基于所计算的哈希,将第一多个数据记录中的数据记录分配给来自第一集合的分组的分组,并且基于所计算的哈希,将第二多个数据记录中的数据记录分配给来自第二集合的分组的分组。其中,第二集合的分组中的每个分组与第一集合的分组中的相应分组相关联。该操作还包括:基于哈希值,确定是否要将来自第一集合的分组的分组中的相应数据记录与来自第二集合的分组的相关联的分组中的相应数据记录进行连接,以及响应于确定要将来自第一集合的分组的分组中的相应数据记录与来自第二集合的分组的相关联的分组中的相应数据记录进行连接,连接相应数据记录。该操作还包括输出经连接的数据记录。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥特瑞克斯股份有限公司,未经奥特瑞克斯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880047106.3/2.html,转载请声明来源钻瓜专利网。





