[发明专利]一种基于Spark作业的计算资源确定方法及装置有效

申请号：	201911256157.X	申请日：	2019-12-10
公开（公告）号：	CN110688993B	公开（公告）日：	2020-04-17
发明（设计）人：	郭得科;胡智尧	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06T1/20;G06N3/08
代理公司：	北京风雅颂专利代理有限公司 11403	代理人：	于洁
地址：	410003 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 spark 作业计算资源确定方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种基于Spark作业的计算资源确定方法及装置，方法包括：以不同数据量大小的数据集和为数据集分配的各种计算资源为输入，以处理耗时为监督，对预设结构的神经网络进行训练，得到预测模型；利用该预测模型，分别预测利用每种计算资源对待处理数据进行处理的耗时；在预测得到的耗时中，确定最短耗时对应的计算资源，作为待处理数据对应的计算资源；可见，本方案通过预测模型确定处理数据所需的计算资源，减少了对人工经验的依赖。

技术领域

本发明涉及并行计算技术领域，特别是指一种基于Spark作业的计算资源确定方法及装置。

背景技术

一些场景中，通常需要对数据进行并行处理。比如，需要对100张图像进行人脸识别，则可以将这100张图像分配给多个处理单元，这些处理单元并行对这些图像进行人脸识别。处理单元可以理解为设备中的计算资源，比如，一个处理单元可以为一个CPU（CentralProcessing Unit，中央处理器），或者一个GPU（Graphics Processing Unit，图形处理器），或者为其他处理芯片。

如果为数据分配了较少的计算资源，则并行处理的数据较少，处理耗时较长；如果为数据分配了较多的计算资源，则设备的其他资源消耗如网络通信、磁盘I/O（Input/Output，输入/输出）较多，导致设备运行较慢，数据处理耗时也会较长。目前，大多依赖人工经验确定处理数据所需的计算资源。

发明内容

有鉴于此，本发明的目的在于提出一种基于Spark作业的计算资源确定方法及装置，减少对人工经验的依赖。

基于上述目的，本发明实施例提供了一种基于Spark作业的计算资源确定方法，包括：

利用预先训练得到的预测模型，分别预测利用每种计算资源对待处理数据进行处理的耗时；其中，所述预测模型为：以不同数据量大小的数据集和为所述数据集分配的各种计算资源为输入，以处理耗时为监督，对预设结构的神经网络进行训练得到的；每种计算资源中包括一个或多个处理单元，各计算资源包括的处理单元的数量不同；

在预测得到的耗时中，确定最短耗时对应的计算资源，作为所述待处理数据对应的计算资源。

可选的，采用如下步骤训练得到所述预测模型：

获取多份待训练样本数据，其中，每份样本数据中包括输入特征及其对应的处理耗时，所述输入特征包括：数据集及为其分配的计算资源；

在所述多份待训练样本数据中确定多个样本对，每个样本对包括两份样本数据的输入特征、以及该两份样本数据的处理耗时之差；

利用所述多个样本对所述预设结构的神经网络进行训练，得到所述预测模型。

可选的，所述输入特征还包括：并行处理的任务数量以及任务的有向循环图。

可选的，所述在预测得到的耗时中，确定最短耗时对应的计算资源，作为所述待处理数据对应的计算资源之后，还包括：