[发明专利]一种自适应资源调度方法有效
申请号: | 201910230528.0 | 申请日: | 2019-03-25 |
公开(公告)号: | CN109976911B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 邓牌;李晋;程建华;史长亭;白玉 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N3/08 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 时起磊 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自适应 资源 调度 方法 | ||
本发明提供的是一种自适应资源调度方法。步骤一,模块化处理;步骤二,确定主次级GPU;步骤三,监测各GPU运行状态;步骤四;实时动态分配;步骤五,分散处理数据;步骤六,汇总组合;步骤七,完成学习。该发明,资源分配方式分为两级,第一级分配通过将平台模块化,然后划分主次级GPU使用权力,第二级分配以一种服务器自我学习方式,根据以往的任务经验估计动态资源分配量来分配资源,使得整个平台合理分配平台硬件资源,提高系统吞吐量、提高硬件资源的利用率,加快神经网络任务的训练速度,避免出现部分GPU闲置状况,解决资源调度,使得整个系统的负载均衡,没有闲置资源的情况。
技术领域
本发明涉及的是一种深度学习方法,具体涉及一种基于分布式TensorFlow平台的自适应资源调度方法。
背景技术
近年来,随着各种图像识别大赛的盛行和谷歌人工智能AlphaGo屡次战胜人类围棋顶级大师,人工智能开始火爆,其底层技术深度学习也受到许多研究学者的关注,国内外各大公司纷纷推出各自的深度学习框架,其中以谷歌推出的TensorFlow最为热门。
神经网络的构建非常复杂,TensorFlow只需使用API的调用便能实现复杂神经网络的构建,极大加快了开发速度,而用于深度学习的数据量又极其庞大,庞大的数据量意味着庞大的计算量,神经网络的训练离不开庞大的数据量来训练学习获得更高的准确率,海量的数据和巨大的计算量的双重压力下,无疑给硬件资源带来了巨大的挑战。
因此,深度学习任务通常在分布式部署下完成,以解决个人PC在硬件资源方面的瓶颈,但是,现有的分布式部署虽然容易,但是资源利用率通常不高,在单任务的情况下很难配置好合适的资源利用阈值,多数都在满负荷运行单任务,导致多任务的时候没有硬件资源执行其他任务。多任务下更是难以合理分配硬件资源,有时候一些相对简单任务占用资源甚至高于相对复杂任务,导致多任务效率不高,甚至有资源空闲的情况,整个分布式系统执行效率和资源利用率都难以得到有效保证。
发明内容
本发明的目的在于提供一种能够避免出现部分GPU闲置状况,使得负载均衡,提高资源利用率的自适应资源调度方法。
本发明的目的是这样实现的:
步骤一,模块化处理;
步骤二,确定主次级GPU;
步骤三,监测各GPU运行状态;
步骤四;实时动态分配;
步骤五,分散处理数据;
步骤六,汇总组合;
步骤七,完成学习。
本发明还可以包括:
1.所述的模块化处理是指:将服务器按照视频、语音、文字和图片划分为四个模块,在四个模块均等配制GPU。
2.所述确定主次级GPU是指:对GPU进行评估,判定各个GPU的计算处理能力,本模块直属的GPU为主级GPU,其他模块的GPU为本模块的次级GPU。
3.所述的监测各GPU运行状态是指:定时监控各个模块的计算强度,同时对各个GPU的运行状态进行监控。
4.所述的实时动态分配是指:当本模块的计算和需处理的数据多时,本模块的直属GPU进行本模块的数据处理,当检测到其他模块的GPU同时工作时,并且资源分配不均时,采用类BP算法的方法,通过T时间点的资源分配量和以往执行历史中类似任务的资源分配量预测T+1或者T+n时间点的资源分配,并动态实时更新资源分配方式。
5.所述的汇总组合是指:在其他模块的GPU工作完毕后,将已完成训练GPU处理的数据输送到未完成的计算服务器内部,空闲出已完成任务的服务器资源,通过等待最后完成计算进行汇合处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910230528.0/2.html,转载请声明来源钻瓜专利网。