[发明专利]大规模多机多卡预训练方法、系统、设备及服务器集群在审
| 申请号: | 202111042840.0 | 申请日: | 2021-09-07 |
| 公开(公告)号: | CN113723552A | 公开(公告)日: | 2021-11-30 |
| 发明(设计)人: | 李革;任俞睿;王耀威;白鑫贝;郭明月 | 申请(专利权)人: | 北京大学深圳研究生院 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京京万通知识产权代理有限公司 11440 | 代理人: | 万学堂 |
| 地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 大规模 多机多卡预 训练 方法 系统 设备 服务器 集群 | ||
本发明属于分布式训练技术领域,公开了一种大规模多机多卡预训练方法、系统、设备及服务器集群,在多个服务器上部署多机多卡,进行同构机型和异构混合机型的多机多卡并行;基于slurm框架进行大规模多机多卡训练及评测,以无监督特征学习BYOL算法为例予以实施;基于Horovod框架进行大规模多机多卡训练及评测,以视频语义无监督学习PRP算法予以实施;所述训练包括环境配置、任务配置、通信配置、任务加速。本发明涉及的多机多卡大规模训练实验,batchsize之高,训练时间压缩之短,验证鹏城云脑I大科学装置的并行能力,拓展并行训练的集群规模,对于利用超大规模集群开展分布式训练具有指导意义。
技术领域
本发明属于分布式训练技术领域,尤其涉及一种大规模多机多卡预训练方法、系统、设备及服务器集群。
背景技术
目前,针对我国对于AI开源开放共享创新平台的建设需求,鹏城实验室推出了鹏城云脑一期平台,鹏城云脑I是以英伟达GPU服务器为基础设施建设的一套大型集群系统,作为AI大科学装置用以支撑构造更好的AI生态,鹏城云脑I具备集群管理工具和资源调度平台,支持在GPU集群中运行AI任务。在智慧城市的建设升级过程中,数据量急剧增长,而且随着人工智能任务越来越复杂、越来越多样,模型规模也越来越大,目前实际应用中面临很多利用大规模数据对大模型进行训练的需求,利用多机多卡开展分布式训练是应对此类需求的必要途径。因此,基于鹏城云脑I进行大规模多机多卡分布式训练,能够显著地提高模型训练效率。
就目前分布式训练使用的资源规模而言,OpenMMLab复现的BYOL算法公开的数据显示,最高仅用到128块GPU卡进行测试,batchsize最大为4096,目前国内外很少有单位能完成强大算力的大规模多机多卡运算,且超大数据集大batchsize训练时存在模型精度下降问题。另外,如何有效利用混合异构机器进行并行训练也是并行计算领域的一个难点,对于实际应用具有重要意义。因此,亟需一种新的大规模多机多卡预训练方法。
通过上述分析,现有技术存在的问题及缺陷为:目前多机多卡数据训练中,现有技术很少有单位能完成强大算力的大规模多机多卡运算,且超大数据集大batchsize训练时存在模型精度下降问题;同时如何有效利用混合异构机器进行并行训练也是并行数据计算领域的一个难点。
解决以上问题及缺陷的难度为:大规模多机多卡训练时的通信瓶颈和异常监测问题,大batchsize训练时如何选用合适的参数调整策略使得模型收敛且精度有所提升,保证稳定运行的同时确保算法性能。另外,随着技术发展和需求不同,不能保证资源池里都为同种类型机器,不同类型机器配置不同,怎样有效利用混合异构机器进行并行训练。
解决以上问题及缺陷的意义为:更大规模集群的使用和模型成功训练极大地压缩了模型训练时间,提升了模型精度,为利用超大规模数据训练和使用通用大模型提供了技术途径,在保证算法性能的同时可以支撑更多的下游任务;混合异构机器的并行训练可提升资源利用率,进一步提升并行训练规模。
发明内容
针对现有技术存在的问题,本发明提供了一种大规模多机多卡预训练方法、系统、设备及服务器集群,尤其涉及一种基于鹏城云脑I的大规模多机多卡(GPU)预训练方法、系统、设备及服务器集群。
本发明是这样实现的,一种大规模多机多卡预训练方法,包括:
在多个服务器上部署多机多卡,进行同构机型和异构混合机型的多机多卡并行;
基于slurm框架进行大规模多机多卡训练及评测,以无监督特征学习BYOL算法为例予以实施;
基于Horovod框架进行大规模多机多卡训练及评测,以视频语义无监督学习PRP算法予以实施;
所述训练包括环境配置、任务配置、通信配置、任务加速等。
具体包括:
步骤一,无监督特征学习:采用BYOL算法进行多机多卡部署;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111042840.0/2.html,转载请声明来源钻瓜专利网。





