[发明专利]一种模型处理方法、装置、设备及计算机可读存储介质在审

申请号：	202010947896.X	申请日：	2020-09-10
公开（公告）号：	CN114169491A	公开（公告）日：	2022-03-11
发明（设计）人：	张杰;王昂;江乐;李永	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/063;G06N3/08
代理公司：	北京开阳星知识产权代理有限公司 11710	代理人：	张子青
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种模型处理方法装置设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种模型处理方法、装置、设备及计算机可读存储介质。本公开通过获取待训练模型对应的第一计算图、以及待训练模型的并行化策略，待训练模型的并行化策略包括流水并行、模型并行、数据并行和算子拆分中的至少一种，根据待训练模型的并行化策略在第一计算图中添加并行化信息，得到第二计算图，并根据第二计算图和计算资源，确定分布式计算图，根据分布式计算图对待训练模型进行训练，实现了基于计算图图编辑的技术来支持多种并行化策略，使得多种并行化策略可以整合于一套系统中，从而实现了一种能够支持多种并行化策略的分布式训练框架。

技术领域

本公开涉及信息技术领域，尤其涉及一种模型处理方法、装置、设备及计算机可读存储介质。

背景技术

随着深度神经网络的发展，深度学习模型、神经网络模型等模型的参数量在不断的增长，但是用于训练模型的硬件的更新速度却跟不上模型的迭代速度。

现有技术采用分布式的训练方法对模型进行训练。通常的分布式的训练方法包括：数据并行、模型并行、流水并行、算子拆分、以及混合并行等并行化策略。其中，混合并行可以是数据并行、模型并行、流水并行、算子拆分中两种或两种以上的组合方式。但是，现有技术中的分布式训练框架无法支持各种并行化策略及其组合。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种模型处理方法、装置、设备及计算机可读存储介质，以实现一种能够支持多种并行化策略的分布式训练框架。

第一方面，本公开实施例提供一种模型处理方法，包括：

获取待训练模型对应的第一计算图、以及所述待训练模型的并行化策略，所述待训练模型的并行化策略包括流水并行、模型并行、数据并行和算子拆分中的至少一种；

根据所述待训练模型的并行化策略在所述第一计算图中添加并行化信息，得到第二计算图；

根据所述第二计算图和计算资源，确定分布式计算图；

根据所述分布式计算图对所述待训练模型进行训练。