[发明专利]一种模型处理方法、装置、设备及计算机可读存储介质在审
| 申请号: | 202010947896.X | 申请日: | 2020-09-10 | 
| 公开(公告)号: | CN114169491A | 公开(公告)日: | 2022-03-11 | 
| 发明(设计)人: | 张杰;王昂;江乐;李永 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 | 
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063;G06N3/08 | 
| 代理公司: | 北京开阳星知识产权代理有限公司 11710 | 代理人: | 张子青 | 
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 模型 处理 方法 装置 设备 计算机 可读 存储 介质 | ||
本公开涉及一种模型处理方法、装置、设备及计算机可读存储介质。本公开通过获取待训练模型对应的第一计算图、以及待训练模型的并行化策略,待训练模型的并行化策略包括流水并行、模型并行、数据并行和算子拆分中的至少一种,根据待训练模型的并行化策略在第一计算图中添加并行化信息,得到第二计算图,并根据第二计算图和计算资源,确定分布式计算图,根据分布式计算图对待训练模型进行训练,实现了基于计算图图编辑的技术来支持多种并行化策略,使得多种并行化策略可以整合于一套系统中,从而实现了一种能够支持多种并行化策略的分布式训练框架。
技术领域
本公开涉及信息技术领域,尤其涉及一种模型处理方法、装置、设备及计算机可读存储介质。
背景技术
随着深度神经网络的发展,深度学习模型、神经网络模型等模型的参数量在不断的增长,但是用于训练模型的硬件的更新速度却跟不上模型的迭代速度。
现有技术采用分布式的训练方法对模型进行训练。通常的分布式的训练方法包括:数据并行、模型并行、流水并行、算子拆分、以及混合并行等并行化策略。其中,混合并行可以是数据并行、模型并行、流水并行、算子拆分中两种或两种以上的组合方式。但是,现有技术中的分布式训练框架无法支持各种并行化策略及其组合。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种模型处理方法、装置、设备及计算机可读存储介质,以实现一种能够支持多种并行化策略的分布式训练框架。
第一方面,本公开实施例提供一种模型处理方法,包括:
获取待训练模型对应的第一计算图、以及所述待训练模型的并行化策略,所述待训练模型的并行化策略包括流水并行、模型并行、数据并行和算子拆分中的至少一种;
根据所述待训练模型的并行化策略在所述第一计算图中添加并行化信息,得到第二计算图;
根据所述第二计算图和计算资源,确定分布式计算图;
根据所述分布式计算图对所述待训练模型进行训练。
第二方面,本公开实施例提供一种模型处理装置,包括:
获取模块,用于获取待训练模型对应的第一计算图、以及所述待训练模型的并行化策略,所述待训练模型的并行化策略包括流水并行、模型并行、数据并行和算子拆分中的至少一种;
添加模块,用于根据所述待训练模型的并行化策略在所述第一计算图中添加并行化信息,得到第二计算图;
确定模块,用于根据所述第二计算图和计算资源,确定分布式计算图;
训练模块,用于根据所述分布式计算图对所述待训练模型进行训练。
第三方面,本公开实施例提供一种模型处理设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。
第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010947896.X/2.html,转载请声明来源钻瓜专利网。





