[发明专利]一种深度学习框架的调度方法及系统在审
申请号: | 201810697878.3 | 申请日: | 2018-06-29 |
公开(公告)号: | CN109117254A | 公开(公告)日: | 2019-01-01 |
发明(设计)人: | 辛锐;刘芳;陈连栋;陆忠华;李井泉;王珏;孙辰军;冯仰德;申培培;周文芳;路欣 | 申请(专利权)人: | 国家电网公司;国网河北省电力有限公司信息通信分公司;中国科学院计算机网络信息中心 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/445;G06N99/00 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像处理器 调度 全局资源管理器 应用程序管理器 调度系统 深度优先搜索 节点管理器 配置选项 权重设置 通用接口 系统软件 应用设计 资源类型 资源容器 传统的 大数据 客户端 集群 学习 选项 配置 管理 | ||
本发明涉及一种深度学习框架的调度方法及系统,其中,系统包括全局资源管理器ResourceManager、多个节点管理器NodeManager、应用程序管理器ApplicationMaster和资源容器Container;在所述YARN调度系统的配置选项中增加图像处理器GPU选项以及是否使用图像处理器GPU,并在所述全局资源管理器ResourceManager中增加图像处理器GPU的资源类型、添加图像处理器GPU的权重设置、增加可深度优先搜索GPU通用接口;对每种应用设计单独的客户端并修改部分应用程序管理器,使更改配置后的YARN调度系统与其他系统软件相结合。采用本发明的系统和方法,结合传统的大数据集群框架HadoopYARN,能够在Hadoop平台上实现GPU资源的管理与调度,在本发明的系统中深度学习框架作为一个普通程序被使用的调度,极大提高GPU的被使用能力。
技术领域
本发明涉及人工智能深度学习技术领域,尤其涉及一种深度学习框架的调度方法及系统。
背景技术
近年来,深度学习已经广泛地应用于语音识别,机器翻译,计算机视觉等领域,都取得了很好的效果。随着深度学习理论的兴起,多种深度学习的编程框架不断涌现。TensorFlow、Caffe、PyTorch等深度学习框架在架构、性能、模型构建等许多方面都差异甚大。每种框架都有其特别适用的领域,而统一管理调度这些框架的平台却非常缺乏,极少数支持的平台,例如腾讯的DI-平台,非开源,对自身的业务支持性很好,但是可扩展性不足。
另一方面,深度学习理论的发展离不开GPU硬件的进步。GPU(GraphicsProcessing Unit,图形处理器)是一种专门的图像运算处理器,主要工作于个人计算机、高性能服务器或移动设备之上,为它们加速各种3D图像和特效的处理。对于很多科学计算而言,性能主要取决于GPU的浮点计算能力,特别是对深度学习任务来说。但是,由于涉及GPU的计算很多本身就需要巨大的计算量,单机通常无法在短时间内完成,因此GPU的集群化管理和使用成为一种必然的趋势。
深度学习的模型训练需要海量数据,海量数据的预处理需要用大数据技术进行处理。大数据处理框架中最为流行的当属Hadoop和Spark。Hadoop和Spark均支持Hadoop YARN(Yet Another Resource Negotiator)作为资源管理器。Hadoop YARN的出现使得资源的管理和调度更加简单,大大简化了集群结构,并且使其具备了多种任务类型的可扩展性。
综上所述,结合传统的大数据集群框架HadoopYARN,对在Hadoop平台上实现GPU资源的管理与调度并使其具备执行深度学习框架是我们要解决的首要问题。
发明内容
为解决上述问题,第一方面,本发明提供一种深度学习框架的调度系统,包括全局资源管理器ResourceManager、多个节点管理器NodeManager、应用程序管理器ApplicationMaster和资源容器Container;在YARN调度系统的配置选项中增加图像处理器GPU选项以及是否使用图像处理器GPU,并在所述全局资源管理器ResourceManager中增加图像处理器GPU的资源类型、添加图像处理器GPU的权重设置、增加可深度优先搜索GPU通用接口;
对每种应用设计单独的客户端并修改部分应用程序管理器,使更改配置后的YARN调度系统与其他系统软件相结合。
优选地,YARN调度系统具体通过以下步骤进行配置:
在ResourceManager中的ResourceType.java文件里增加GPU的资源类型,使GPU成为调度器的一种资源类型;
在ResourceManager中的ResourceWeight.java文件里增加GPU的权重设置;
在hadoop-yarn-common里的GpuResourceCalculator.java中增加可深度优先搜索GPU的通用接口;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网公司;国网河北省电力有限公司信息通信分公司;中国科学院计算机网络信息中心,未经国家电网公司;国网河北省电力有限公司信息通信分公司;中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810697878.3/2.html,转载请声明来源钻瓜专利网。