[发明专利]高性能流水线并行深度神经网络训练在审
| 申请号: | 201980033991.4 | 申请日: | 2019-05-07 |
| 公开(公告)号: | CN112154462A | 公开(公告)日: | 2020-12-29 |
| 发明(设计)人: | V·塞沙德利;A·费尼沙耶;D·纳拉亚南;A·哈拉普;N·D·兰格拉詹 | 申请(专利权)人: | 微软技术许可有限责任公司 |
| 主分类号: | G06N3/063 | 分类号: | G06N3/063;G06N3/08 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 黄倩 |
| 地址: | 美国华*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 性能 流水线 并行 深度 神经网络 训练 | ||
使用DNN的简档将深度神经网络(DNN)的层划分为多个阶段。阶段中的每个阶段包括DNN的层中的一个或多个层。将DNN的层划分为多个阶段以各种方式被优化,包括优化划分以最小化训练时间,最小化用于训练DNN的工作者计算设备之间的数据通信,或确保工作者计算设备执行大致相等量的处理来训练DNN。阶段被分配给工作者计算设备。工作者计算设备使用调度策略来处理训练数据的批次,该调度策略使得工作者在DNN训练数据的批次的前向处理与DNN训练数据的批次的后向处理之间交替。这些阶段可以被配置成用于模型并行处理或数据并行处理。
背景技术
在诸如人脑的生物神经系统中,深度神经网络(“DNN”)在信息处理和通信模式之后被松散建模。DNN可以被用来解决复杂的分类问题,诸如但不限于对象检测、语义标记和特征提取。结果,DNN构成很多人工智能(“AI”)应用的基础,诸如计算机视觉、语音识别和机器翻译。在很多领域,DNN可以达到或甚至超过人类的准确性。
DNN的高级性能源于它们在对大数据集使用统计学习以获取输入空间的有效表示之后,从输入数据中提取高级特征的能力。但是,DNN的优越性能以高计算复杂度为代价。诸如图形处理单元(“GPU”)的高性能通用处理器通常被用来提供很多DNN应用所需要的高水平的计算性能。
然而,随着DNN变得越来越广泛被开发和使用,模型大小已经增加以提高效能。如今的模型具有数十到数百层,通常总共有一千万到两千万个参数。这种增长不仅给已经是时间和资源密集的DNN训练过程带来压力,而且还使得用于训练DNN的常用并行化方法崩溃。
关于这些和其他技术挑战,提出了本文进行的公开。
发明内容
本文公开了用于高性能流水线并行DNN模型训练的技术。所公开的DNN模型(在本文中可以被简称为“DNN”)训练系统通过将跨计算设备的训练过程的各方面流水线化,来使DNN模型的训练并行化,其中计算设备被配置成处理各范围的DNN层。除了其他技术益处之外,当训练大型DNN模型时或当有限的网络带宽引起较高的通信计算比时,所公开的流水线并行计算技术还可以消除由之前的并行化方法引起的性能影响。
对于大型DNN模型,相对于通过使能重叠的通信和计算所进行的数据并行训练,所公开的流水线并行DNN训练技术还可以将通信开销减少多达百分之九十五(95%)。附加地,所公开的技术可以通过在流水线阶段之间划分DNN层以平衡工作和最小化通信,对模型参数进行版本控制以实现后向传递正确性,以及调度双向训练流水线的前向和后向传递,来保持GPU的生产力。
使用以上简要描述并且在下文中更充分描述的机制,对于DNN训练,所公开的技术的实施方式在“达到目标精确度所需时间”方面已经显示出比数据并行训练快五倍。这种效率提高可以减少对各种类型的计算资源的利用,包括但不限于存储器、处理器周期、网络带宽和功率。还可以通过所公开的技术的实施方式来实现本文未具体标识的其他技术益处。
为了实现上面简要提及的技术益处以及潜在的其他益处,所公开的技术利用流水线机制、模型并行化和数据并行化的组合。该组合在本文中被称为“流水线并行”DNN训练。为了实现流水线并行DNN训练,生成DNN模型的简档。可以通过利用DNN训练数据的子集(例如,几千个微型批次),在少量计算设备(例如一个)上执行DNN,来生成DNN简档。
一旦已经生成了DNN简档,就基于该简档将DNN模型的层划分到阶段。阶段中的每个阶段包括DNN模型的一个或多个层。在一些实施例中,DNN的划分被优化,以最小化将DNN模型训练到所需准确性水平的时间。
DNN模型的划分也可以或备选地被优化,以最小化计算设备之间的数据通信,或将用于训练DNN模型的计算设备配置成在训练期间均执行大致相同量的处理。对DNN模型的层的划分还可以包括计算提供给用于训练的计算设备的DNN训练数据的批次的最佳数目,以最大化其处理效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980033991.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于知识发现的搜索工具
- 下一篇:自动智能云服务测试工具





