[发明专利]基于内核旁路技术的Hadoop map-reduce计算加速方法在审
申请号: | 201810568335.1 | 申请日: | 2018-06-05 |
公开(公告)号: | CN108804040A | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 赵继胜;吴宇 | 申请(专利权)人: | 上海孚典智能科技有限公司;赵继胜;吴宇 |
主分类号: | G06F3/06 | 分类号: | G06F3/06;H04L29/08 |
代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 冯子玲 |
地址: | 200082 上海市杨浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 读写 内核 旁路 摘要附图 缓存 数据处理过程 多次迭代 缓存资源 计算过程 网络带宽 性能提升 网络I/O 固态盘 迭代 整合 运算 消耗 网络 | ||
本发明提供了一种基于内核旁路技术(kernelbypass)的hadoop map‑reduce运算加速方法,包括:1.通过内核旁路技术提升对固态盘(SSD)的读写速度,2.通过内核旁路技术进行对网络的高速读写。上述两项高速读写技术可以分别对hadoop map‑reduce的缓存读写和网络I/O进行加速。Shuffle过程是map‑reduce计算中消耗缓存资源和网络带宽主要过程(见摘要附图左侧),通过将上述两项高速读写技术进行整合,有效的提升了数据处理过程的性能(见摘要附图右侧)。由于map‑reduce计算由多次迭代组成,而每次迭代均包含shuffle过程,因此对shuffle的性能调优对整个map‑reduce计算过程带来显著性能提升。
技术领域
本发明属于涉及信息技术领域,尤其是涉及一种基于操作系统内核旁通技术的I/O性能优化的方法,主要用于提升hadoop map-reduce的运算性能。
背景技术
Apache Hadoop作为大数据处理的运算引擎已经在企业,教育,科研等领域广泛应用。作为一种并行处理的运算引擎,Hadoop以程序开发模型简单直观,同时具备良好的容错能力,使其可以很快的开发应用并部署于海量运算节点上,极大的提升了大数据应用开发的生产率。以Hadoop为运算引擎的各种软件框架也在飞速发展,例如Spark,Hive,Mahout等等涵盖从分布式数据仓库到机器学习等广泛的应用领域。Hadoop正在日益成为大数据和并行处理方面的一项重要的行业标准。
面对越来越多的应用扩展,作为一种计算引擎,Hadoop必然面临着性能提升的技术压力,因此业界和学界都在不断的探索和研究针对Hadoop运算模型的性能优化技术。在本项专利中,我们提出了使用Intel NVMe[1]协议以内核旁通的方式来提升Hadoop在进行运算过程中的缓存和网络I/O的性能,从而提升基于Hadoop map-reduce运算的整体效率。
发明内容
针对Hadoop map-reduce运算框架,本专利的目的是提供一种将Hadoop map-reduce过程中的shuffle过程的性能提升的方法,从而提升Hadoop map-reduce运算的整体性能。
为实现上述目的,本发明提供了一种基于内核旁通和IntelNVMe协议的I/O性能提升的方法。使用hadoop开发大数据应用主要是利用hadoop所具备的分布式并行处理能力,而hadoop的分布式并行处理主要基于map-reduce运算模型。map-reduce由如下3步构成:
1.Map过程:将计算任务依据数据进行分片,置于不同的分布式运算节点(例如x86服务器节点)上,多节点进行并行计算;
2.Shuffle过程,将map过程的运算结果数据存入本地存储介质(机械磁盘或固态盘SSD),然后以shuffle的形式将数据发送至其他节点以进行reduce过程(参见附图1中的map shuffle);
3.Reduce过程,将各节点发送的数据以reduce计算公式(例如累加,乘积等)进行汇总处理,最后输出结果(参见附图1的reduce)。
本项专利所做的性能提升是:针对shuffle过程中的写入本地存储介质和分发数据到不同节点以进行reduce过程的这两个I/O操作进行优化。
对于存储介质读写性能提升,我们利用内核旁通的NVMe设备读写方式进行对固态盘SSD进行高效读写,避免通过操作系统内核而引发的额外延迟和内存占用;
对于网络传输性能提升,我们利用内核旁通并基于NVMe协议的IP网络通信方式进行高效的网络数据传输,避免了传统TCP协议栈中对操作系统内核的访问。
在本项发明的实现部分我们详细介绍如何通分别过SPDK[2]和DPDK[3]函数库(附带软件包和驱动)进行对SSD和IP网络进行高效的基于NVMe的读写性能提升
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海孚典智能科技有限公司;赵继胜;吴宇,未经上海孚典智能科技有限公司;赵继胜;吴宇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810568335.1/2.html,转载请声明来源钻瓜专利网。