[发明专利]一种基于Spark作业的计算资源确定方法及装置有效
| 申请号: | 201911256157.X | 申请日: | 2019-12-10 |
| 公开(公告)号: | CN110688993B | 公开(公告)日: | 2020-04-17 |
| 发明(设计)人: | 郭得科;胡智尧 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06T1/20;G06N3/08 |
| 代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 于洁 |
| 地址: | 410003 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 spark 作业 计算 资源 确定 方法 装置 | ||
本发明实施例公开了一种基于Spark作业的计算资源确定方法及装置,方法包括:以不同数据量大小的数据集和为数据集分配的各种计算资源为输入,以处理耗时为监督,对预设结构的神经网络进行训练,得到预测模型;利用该预测模型,分别预测利用每种计算资源对待处理数据进行处理的耗时;在预测得到的耗时中,确定最短耗时对应的计算资源,作为待处理数据对应的计算资源;可见,本方案通过预测模型确定处理数据所需的计算资源,减少了对人工经验的依赖。
技术领域
本发明涉及并行计算技术领域,特别是指一种基于Spark作业的计算资源确定方法及装置。
背景技术
一些场景中,通常需要对数据进行并行处理。比如,需要对100张图像进行人脸识别,则可以将这100张图像分配给多个处理单元,这些处理单元并行对这些图像进行人脸识别。处理单元可以理解为设备中的计算资源,比如,一个处理单元可以为一个CPU(CentralProcessing Unit,中央处理器),或者一个GPU(Graphics Processing Unit,图形处理器),或者为其他处理芯片。
如果为数据分配了较少的计算资源,则并行处理的数据较少,处理耗时较长;如果为数据分配了较多的计算资源,则设备的其他资源消耗如网络通信、磁盘I/O(Input/Output,输入/输出)较多,导致设备运行较慢,数据处理耗时也会较长。目前,大多依赖人工经验确定处理数据所需的计算资源。
发明内容
有鉴于此,本发明的目的在于提出一种基于Spark作业的计算资源确定方法及装置,减少对人工经验的依赖。
基于上述目的,本发明实施例提供了一种基于Spark作业的计算资源确定方法,包括:
利用预先训练得到的预测模型,分别预测利用每种计算资源对待处理数据进行处理的耗时;其中,所述预测模型为:以不同数据量大小的数据集和为所述数据集分配的各种计算资源为输入,以处理耗时为监督,对预设结构的神经网络进行训练得到的;每种计算资源中包括一个或多个处理单元,各计算资源包括的处理单元的数量不同;
在预测得到的耗时中,确定最短耗时对应的计算资源,作为所述待处理数据对应的计算资源。
可选的,采用如下步骤训练得到所述预测模型:
获取多份待训练样本数据,其中,每份样本数据中包括输入特征及其对应的处理耗时,所述输入特征包括:数据集及为其分配的计算资源;
在所述多份待训练样本数据中确定多个样本对,每个样本对包括两份样本数据的输入特征、以及该两份样本数据的处理耗时之差;
利用所述多个样本对所述预设结构的神经网络进行训练,得到所述预测模型。
可选的,所述输入特征还包括:并行处理的任务数量以及任务的有向循环图。
可选的,所述在预测得到的耗时中,确定最短耗时对应的计算资源,作为所述待处理数据对应的计算资源之后,还包括:
若存在多份待处理数据,根据所述预测模型预测得到的每份待处理数据对应的最短耗时,分配计算资源,其中,优先为耗时短的待处理数据分配其对应的计算资源;
针对分配到计算资源的每份待处理数据,利用所述预测模型,预测调整为该份待处理数据分配的计算资源后,该份待处理数据对应的处理耗时,作为第一调整后耗时;
在预测得到的第一调整后耗时中,确定最短第一调整后耗时对应的待处理数据,作为捐赠者;
从为所述捐赠者分配的计算资源中,确定待迁移计算资源;
将所述待迁移计算资源分配给未分配到计算资源的待处理数据。
可选的,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911256157.X/2.html,转载请声明来源钻瓜专利网。





