[发明专利]一种基于CPU-GPU异构体系结构的并行相似性连接方法有效

专利信息
申请号: 201911057101.1 申请日: 2019-11-01
公开(公告)号: CN111046092B 公开(公告)日: 2022-06-17
发明(设计)人: 聂铁铮;徐坤浩;申德荣;于戈;寇月 申请(专利权)人: 东北大学
主分类号: G06F16/25 分类号: G06F16/25;G06F16/22;G06F15/163
代理公司: 沈阳东大知识产权代理有限公司 21109 代理人: 李在川
地址: 110819 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 cpu gpu 体系结构 并行 相似性 连接 方法
【说明书】:

发明公开一种基于CPU‑GPU异构体系结构的并行相似性连接方法,属于计算机数据库技术与并行计算技术领域。该方法通过对数据相似性连接方法进行分析设计,构建新的倒排索引结构,实现在GPU上并行构建倒排索引,对相似性连接方法进行分解,根据两种处理器不同的计算特性重新设计计算过程,基于GPU实现双重前缀过滤,有效减小候选集体积。本发明提供的基于CPU‑GPU异构体系结构的相似性连接方法能够将传统的数据相似性连接准确地转换到CPU‑GPU异构计算体系上,从而有效提高大规模数据集相似性连接的处理效率。

技术领域

本发明涉及计算机数据库技术与并行计算技术领域,尤其涉及一种基于CPU-GPU异构体系结构的并行相似性连接方法。

背景技术

随着传统互联网的发展和移动互联网的出现,数据量迅速变大,“大数据”的概念逐渐被人们熟知。但大量的数据也对传统的数据存储和处理带来了新的挑战。为了更快的处理大数据,人们采用例如MapReduce和HDFS等分布式的策略来计算和存储大数据。传统的CPU 性能提升方法已经达到瓶颈,提高主频和核心数量等方法对CPU性能的提升变得越来越困难。传统的仅由CPU负责计算的相似性连接算法的处理速度已经渐渐满足不了用户的需求。近年来,GPU的处理性能和并行处理单元集成度提升迅速,更多的算术逻辑单元使得GPU 的综合计算性能远超CPU,能够极大地弥补CPU处理能力不足的问题。因此基于CPU-GPU异构体系结构的处理模式正成为未来的发展趋势。

相似性连接处理技术是对来自不同数据集的两个对象计算相似度,并以相似度是否达到指定阈值作为对象间的连接条件。目前,相似性连接技术已经被广泛的应用在搜索引擎、数据集成以及知识库构建等领域。常见的相似性连接根据计算对象间相似度的算法不同,可以分为字符串相似性连接、集合相似性连接、向量相似性连接以及图相似性连接,其中以字符串相似性连接应用最为广泛。字符串的相似性可以通过Jaccard相似度等多种相似性度量进行计算。传统的相似性连接处理技术一般使用过滤-验证框架,其中包含过滤和验证两个部分:在过滤阶段设计高效的过滤算法将大量不可能符合相似度要求的数据记录对过滤剔除,大幅减少候选对的数量;在验证阶段,计算每个候选对的相似度,将满足相似度条件的候选对添加至最后结果。

目前,对相似性连接算法的优化主要集中在过滤阶段的优化,通过对过滤算法的优化提升过滤效果,减少验证阶段的任务量。现有研究工作提出了很多的过滤算法,其中包括基于倒排索引的计数过滤算法、基于位置的过滤算法、基于长度的过滤算法以及基于前缀的过滤算法。这些算法在一定程度上都提升了过滤阶段的效率,但都是基于串行处理的设计思想,处理效率受到了极大的限制。

发明内容

针对上述现有技术的不足,本发明提供一种基于CPU-GPU异构体系结构的并行相似性连接方法。

为解决上述技术问题,本发明所采取的技术方案是:一种基于CPU-GPU异构体系结构的并行相似性连接方法,其流程如图1所示,包括如下步骤:

步骤1:使用GPU对初始数据集S并行构建SoA新型倒排索引,如图2所示为构建的基于SoA的倒排索引示意图;

步骤1.1:给定数据集S,将其中每行数据Si切分成若干个数据集合token;

步骤1.2:为每个不同的token分配全局唯一数字类型tid;

步骤1.3:在GPU显存中使用全局映射表记录token与分配的tid之间的映射关系,并借助全局映射操作,将体积较大的字符串类型的token转换为数字类型的tid,使得原数据的体积大幅减少,从而大幅减少后续倒排索引中每个关键词的占用空间;

步骤1.4:全局映射关系构建完成后传输至GPU的global memory;

步骤1.5:使用GPU构建SoA新型倒排索引;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911057101.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top