[发明专利]一种基于数据并行策略的分布式深度学习方法及系统有效
申请号: | 201810662859.7 | 申请日: | 2018-06-25 |
公开(公告)号: | CN109032671B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 李明;侯孟书;詹思瑜;董浩;王瀚;席瑞;董林森 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F9/38 | 分类号: | G06F9/38;G06N3/04;G06N3/08 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 周刘英 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 并行 策略 分布式 深度 学习方法 系统 | ||
本发明公开了一种基于数据并行策略的分布式深度学习方法及系统,本发明的系统包括一个分布式计算框架Spark、PyTorch深度学习框架、轻量级Web应用框架Flask及pickle、urllib2等相关组件;Spark框架提供集群资源管理、数据分发、分布式计算的功能;PyTorch深度学习框架,提供神经网络定义的接口,提供神经网络上层训练计算的功能;flask框架提供参数服务器功能;urllib2模块负责提供工作节点与参数服务器节点的网络通信功能;pickle负责将神经网络模型中的参数序列化与反序列化,以在网络上进行传输。本发明有效的将PyTorch与Spark结合起来,通过Spark将PyTorch与底层分布式集群解耦、吸取了各自的优势,提供便捷的训练接口,高效实现基于数据并行的分布式训练过程。
技术领域
本发明涉及一种深度学习训练系统,具体涉及基于数据并行策略的分布式深度学习方法及系统。
背景技术
近年来随着大数据的到来,与人工智能特别是深度学习的迅速发展,在大数据集上训练的深度神经网络模型在许许多多领域都取得突破性的提高与广泛应用,包括语音识别和图像识别到自然语言处理等。深度学习通过不断的求导迭代更新模型来提高自己的能力,需要大量的计算,是典型的计算密集型任务。因此这些神经网络的训练过程非常耗时,尽管近些年GPU(图形处理器)的硬件技术、网络模型结构和训练方法均取得了一定程度的进展,但是单机训练耗时过久的事实仍无法回避。其次,深度学习要求很大的模型与大量的训练数据,同时研究表明数据规模与神经网络的性能成线性增长关系,未来训练数据可能达到PB、ZB级别。随着数据与模型参数量的越来越大,单机的内存(或显存)的增长速度并将不能与之相匹配。由此,单节点进行深度学习训练已经无法满足要求。分布式由于其良好的灵活性与可扩展性,将单机资源有效的结合起来,分布式深度学习成为解决该问题的有效手段。分布式深度学习主要有两种策略,模型并行与数据并行。模型并行是将神经网络模型分割成多个部分,将各个部分交给个工作节点进行训练,但是工作节点之间存在大量通信,同时切割划分模型存在一定的困难。数据并行则是将训练数据划分成多个训练数据集,交给各个工作节点进行训练,是针对大规模训练数据集分布式训练的有效策略。
Apache Spark作为一个广泛应用的通用分布式计算框架(一种大数据分布式处理引擎),其拥有Hadoop MapReduce所具有的优点,同时Spark底层利用yarn等集群资源管理框架提供了便捷的集群资源管理功能。Spark具有先进的设计理念,引入了actor并行模型,使其在处理分布式数据集上有巨大优势,同时具有运行速度快、易用性好、通用性强等特点。然而在人工智能迅速发展的今天,Spark中的Mllib/Mlbase等机器学习库发展缓慢,同时近年来深度学习得到了前所未有的发展,将在各个领域不断地替代经典的机器学习算法,而Spark对深度学习的支持性很差,运行在Spark上的应用不能直接应用深度学习算法,需要通过复杂的方式才能达到这目的。Spark作为通用分布式计算系统并不能很好的支持深度学习。近年来,有将caffe(Convolutional Architecture for Fast FeatureEmbedding),tensorflow深度学习框架整合至Spark上面的架构,如sparknet,deepspark,caffeonspark。通过将训练数据转化成RDD(弹性分布式数据集)数据类型,然后通过spark进行分布式计算训练。然而这种架构下,上层深度学习框架均为静态图框架,缺少灵活性,同时在参数交换与分布式更新算法方面存在一定的局限性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810662859.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置