[发明专利]一种基于混合云资源的异构计算平台及模型训练方法在审
| 申请号: | 202110049064.0 | 申请日: | 2021-01-14 |
| 公开(公告)号: | CN112667594A | 公开(公告)日: | 2021-04-16 |
| 发明(设计)人: | 曹岗;邵洲;张肖龙;曲含笑 | 申请(专利权)人: | 北京智源人工智能研究院 |
| 主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F9/50;G06K9/62;G06N3/04 |
| 代理公司: | 北京动力号知识产权代理有限公司 11775 | 代理人: | 梁艳;白婉露 |
| 地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 混合 资源 计算 平台 模型 训练 方法 | ||
1.一种基于混合云资源的异构计算平台,其特征在于,包括:
基础组件层,用于提供用户操作的接口,所述用户操作包括设置模型训练任务;
计算框架层,用于提供所述模型训练任务使用的学习框架;
资源管理层,用于对所述基础设施层中的混合云资源进行分配和调度以执行所述模型训练任务;
基础设施层,用于提供混合云资源,包括异构的算力资源、网络资源和存储资源。
2.如权利要求1所述的基于混合云资源的异构计算平台,其特征在于,所述学习框架包括深度学习框架和强化学习框架。
3.如权利要求2所述的基于混合云资源的异构计算平台,其特征在于,所述资源管理层包括资源管理模块、Kubernetes模块和Docker模块,所述资源管理模块通过所述Kubernetes模块和Docker模块实现对所述基础设施层中异构的算力资源、网络资源和存储资源的调度。
4.如权利要求3所述的基于混合云资源的异构计算平台,其特征在于,所述异构的算力资源包括分布式的CPU、GPU、ASIC处理器资源,所述网络资源包括RDMA网络,所述存储资源包括分布式存储系统HDFS、Ceph和/或ClusterFS。
5.如权利要求4所述的基于混合云资源的异构计算平台,其特征在于,所述用户操作还包括上传数据集和/或上传算法。
6.如权利要求5所述的基于混合云资源的异构计算平台,其特征在于,所述计算框架层还包括大数据引擎,用于对所上传的数据集进行管理。
7.一种模型训练方法,其特征在于,利用权利要求6所述的基于混合云资源的异构计算平台进行实施,包括:
用户通过所述基础组件层设置模型训练任务并启动任务,所述模型训练任务的设置包括选择模型、数据集、学习框架和/或算力资源;
计算框架层提供所选择的学习框架;
所述资源管理层根据所述模型训练任务的设置为所述模型训练任务分配并调用所述基础设施层的算力资源、网络资源和存储资源,进行模型训练。
8.如权利要求7所述的模型训练方法,其特征在于,所述资源管理层根据所述模型训练任务的设置为所述模型训练任务分配并调用所述基础设施层的算力资源、网络资源和存储资源包括:
所述资源管理层根据所述模型训练任务的设置为所述模型训练任务分配算力资源、网络资源和存储资源,调用Kubernetes模块和Docker模块为所述模型训练任务建立容器,所述容器包括所分配的算力资源、网络资源和存储资源的镜像。
9.如权利要求8所述的模型训练方法,其特征在于,所述资源管理层根据所述模型训练任务的设置为所述模型训练任务分配算力资源包括:
获取当前可用的算力资源;
若所述模型训练任务的设置包括算力资源的选择,则基于所述选择分配对应的算力资源;
否则,识别所述模型训练任务的类型,根据所述类型确定所需算力资源的类型和大小;
按照所需算力资源的类型和大小从当前可用的算力资源中进行分配。
10.如权利要求9所述的模型训练方法,其特征在于,所述资源管理层实时地记录各模型训练任务使用的资源情况,并在模型训练过程中动态地调整所分配的算力资源、网络资源和存储资源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智源人工智能研究院,未经北京智源人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110049064.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车混合动力系统
- 下一篇:一种车辆后部碰撞预警方法





