[发明专利]一种模型处理方法、装置、设备及计算机可读存储介质在审
| 申请号: | 202010947896.X | 申请日: | 2020-09-10 | 
| 公开(公告)号: | CN114169491A | 公开(公告)日: | 2022-03-11 | 
| 发明(设计)人: | 张杰;王昂;江乐;李永 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 | 
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063;G06N3/08 | 
| 代理公司: | 北京开阳星知识产权代理有限公司 11710 | 代理人: | 张子青 | 
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 模型 处理 方法 装置 设备 计算机 可读 存储 介质 | ||
1.一种模型处理方法,其特征在于,所述方法包括:
获取待训练模型对应的第一计算图、以及所述待训练模型的并行化策略,所述待训练模型的并行化策略包括流水并行、模型并行、数据并行和算子拆分中的至少一种;
根据所述待训练模型的并行化策略在所述第一计算图中添加并行化信息,得到第二计算图;
根据所述第二计算图和计算资源,确定分布式计算图;
根据所述分布式计算图对所述待训练模型进行训练。
2.根据权利要求1所述的方法,其特征在于,根据所述待训练模型的并行化策略在所述第一计算图中添加并行化信息,得到第二计算图,包括:
根据所述待训练模型的并行化策略将所述第一计算图划分为多个第一子图;
根据所述待训练模型的并行化策略在所述多个第一子图的每个第一子图中添加并行化信息,得到第二计算图。
3.根据权利要求2所述的方法,其特征在于,所述并行化信息包括不同第一子图之间的并行化信息、以及每个第一子图内的并行化信息。
4.根据权利要求3所述的方法,其特征在于,不同第一子图之间的并行化信息包括:不同第一子图之间采用的并行化策略。
5.根据权利要求4所述的方法,其特征在于,不同第一子图之间的并行化信息还包括:不同第一子图之间采用的并行化策略的参数信息。
6.根据权利要求4或5所述的方法,其特征在于,不同第一子图之间采用的并行化策略包括:流水并行和/或模型并行。
7.根据权利要求3所述的方法,其特征在于,每个第一子图内的并行化信息包括:每个第一子图内的并行化策略。
8.根据权利要求7所述的方法,其特征在于,每个第一子图内的并行化信息还包括:每个第一子图内的并行化策略的参数信息。
9.根据权利要求7或8所述的方法,其特征在于,每个第一子图内的并行化策略包括:数据并行和/或算子拆分。
10.根据权利要求2所述的方法,其特征在于,根据所述第二计算图和计算资源,确定分布式计算图,包括:
对所述计算资源进行划分,得到一个或多个虚拟设备,所述虚拟设备包括一个或多个物理设备;根据所述并行化信息将所述第二计算图转换为第三计算图;
将所述第三计算图映射到物理设备,得到分布式计算图。
11.根据权利要求10所述的方法,其特征在于,对所述计算资源进行划分,得到一个或多个虚拟设备,包括:
根据所述并行化信息对所述计算资源进行划分,得到一个或多个虚拟设备。
12.根据权利要求10或11所述的方法,其特征在于,根据所述并行化信息将所述第二计算图转换为第三计算图,包括:
根据所述多个第一子图中每个第一子图的并行化信息,将所述第一子图转换为分布式的第二子图;
根据所述多个第一子图之间的连接关系,将每个第一子图对应的分布式的第二子图进行连接,得到第三计算图。
13.根据权利要求12所述的方法,其特征在于,将所述第三计算图映射到物理设备,包括:
将所述第三计算图中的每个第二子图映射到物理设备。
14.根据权利要求13所述的方法,其特征在于,将所述第三计算图中的每个第二子图映射到物理设备,包括:
将每个第一子图映射到一个虚拟设备;
将所述第一子图对应的每个第二子图映射到所述第一子图对应的虚拟设备包括的物理设备。
15.根据权利要求1所述的方法,其特征在于,获取所述待训练模型的并行化策略,包括:
根据所述待训练模型对应的第一计算图,确定所述待训练模型的并行化策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010947896.X/1.html,转载请声明来源钻瓜专利网。





