[发明专利]基于异构加速平台的分布式计算调整方法、装置及设备在审
申请号: | 202110742629.3 | 申请日: | 2021-07-01 |
公开(公告)号: | CN113485805A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 田丽红;胡辰;许涛 | 申请(专利权)人: | 曙光信息产业(北京)有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06N3/04;G06N3/08 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 蔡舒野 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 加速 平台 分布式 计算 调整 方法 装置 设备 | ||
本发明实施例公开了一种基于异构加速平台的分布式计算调整方法、装置及设备。该方法包括:在目标深度学习模型基于异构加速平台完成分布式计算时,获取与分布式计算相关的至少一种目标性能数据;如果目标性能数据符合与所述目标性能数据对应的异常条件,则根据与所述目标性能数据匹配的调整策略对基于异构加速平台的分布式计算进行调整。通过本发明实施例的技术方案基于异构加速平台的分布式计算进行相关调整后,能够有效提高基于异构加速平台的分布式计算的性能,加快深度学习模型的分布式计算效率。
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种基于异构加速平台的分布式计算调整方法、装置及设备。
背景技术
分布式深度学习有两种基本方法,分别是模型并行和数据并行,关于数据并行方式,通常有基于参数服务器(Parameter Server)和基于Ring-AllReduce架构的工程实现方法。
其中,基于参数服务器(即在计算单元以外加设的新服务器)进行分布式深度学习时,每个计算单元在每次训练的时候把梯度发送给参数服务器,参数服务器把他们进行汇总计算平均值,再把平均值返回到每个计算单元,使得各计算单元能够实现同步。基于Ring-AllReduce架构进行分布式深度学习时,把每个计算单元构建成一个环,需进行梯度平均时,每个计算单元先把自己的梯度切分成N块,然后发送到相邻下一个计算单元。假设现在有N个节点,那么N-1次梯度发送后就能使所有节点掌握所有其他节点的数据。
然而,若基于参数服务器进行分布式深度学习,参数服务器和工作节点之间的网络连接容易成为瓶颈。当参数服务器的带宽成为瓶颈时,工作节点将无法利用自己的全部带宽,当GPU(Graphics Processing Unit,图形处理器)之间的权值更新通信所需的时间线性增长时,网络输入输出就会成为阻止训练进一步扩展的瓶颈,由此减慢了深度学习模型的训练速度。若基于Ring-AllReduce架构进行分布式深度学习,分布式计算耗时太长,影响了分布式深度学习的扩展性。因此,如何有效提高基于异构加速平台的分布式计算的性能是亟待解决的问题。
发明内容
本发明实施例提供一种基于异构加速平台的分布式计算调整方法、装置及设备,以有效提高基于异构加速平台的分布式计算的性能。
第一方面,本发明实施例提供了一种基于异构加速平台的分布式计算调整方法,包括:
在目标深度学习模型基于异构加速平台完成分布式计算时,获取与分布式计算相关的至少一种目标性能数据;
如果目标性能数据符合与所述目标性能数据对应的异常条件,则根据与所述目标性能数据匹配的调整策略对基于异构加速平台的分布式计算进行调整。
可选的,获取与分布式计算相关的至少一种目标性能数据,包括:
获取当前分布式计算的多节点多卡训练性能数据,并根据所述多节点多卡训练性能数据和标准单卡训练性能数据计算当前加速比;
如果所述当前加速比与理论加速比的差值大于预设阈值,则获取与分布式计算相关的至少一种目标性能数据。
上述技术方案计算了当前多节点多卡训练相对于标准单卡训练的加速比,在该加速比相对于理论加速比差值较大时,对分布式计算进行调整,以此提高多节点多卡训练的加速比,加快分布式深度学习训练速度。
可选的,所述目标性能数据包括:分布式学习工具中计算汇总耗时;
如果目标性能数据符合与所述目标性能数据对应的异常条件,则根据与所述目标性能数据匹配的调整策略对基于异构加速平台的分布式计算进行调整,包括:
如果所述分布式学习工具中计算汇总耗时大于预设耗时阈值,则对分布式学习工具的内部优化器进行修正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110742629.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:硬件设备配置方法、装置、设备及存储介质
- 下一篇:投影系统