[发明专利]一种基于效用函数的面向大数据处理的公平资源调度方法有效
申请号: | 201710347165.X | 申请日: | 2017-05-17 |
公开(公告)号: | CN107193655B | 公开(公告)日: | 2020-04-03 |
发明(设计)人: | 韩晨晨;钱柱中;陆桑璐 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 郑晶;许丹丹 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 效用 函数 面向 数据处理 公平 资源 调度 方法 | ||
本发明公开了一种基于效用函数的面向大数据处理的公平资源调度方法,首先获取所有作业的基本特征,然后通过分析基本特征将作业分为流数据处理、交互式以及批处理作业;接着对于流数据处理的作业以平均分布和紧凑的原则来预留系统中的资源;对于交互式和批处理的作业,先分析各自的特征向量导出作业的效用函数,再通过截止时间系数进行约束创建当前可调度作业的预备作业池,最后使用最大资源点乘法选择能够提高资源利用率的任务进行调度,丢弃排队队列中不能为系统产生正面效用的工作。本发明方法将效用函数作为衡量作业重要性的指标,能够更加完善、准确以及满足用户公平性,提高作业服务质量,系统的总体处理能力以及整体效用。
技术领域
本发明涉及数据分析集群中的资源分配和作业调度领域,尤其涉及公平性的资源调度分配与截止时间,吞吐量,利用率等系统性能指标相结合的调度,具体涉及一种基于效用函数的面向大数据处理的公平资源调度方法。
背景技术
在大数据处理的调度算法中,公平性是最被关注的调度目标。其中,最大最小公平算法能够为各用户与作业队列之间提供很好的性能隔离,所以被很多大数据分析平台所采用。但保障公平性往往意味着系统服务质量与系统性能的下降,如何基于公平性原则提高系统的服务质量与系统性能是当前需要迫切解决的问题。随着数据分析集群的迅速发展,各种各样的作业拥有不同的截止时间(Deadline)方面的服务需求,一般来说,交互式作业和流数据作业对于截止时间的要求较高,而批处理作业由于待处理的工作量比较大,通常对于截止时间的界定比较宽松。为了保障各类作业的截止时间都能够被满足,最近截止时间优先的算法(Earliest-Deadline-First)被广泛应用在各类调度算法中。在这样一种作业调度方式下,交互式作业和流数据作业通常被优先调度,而批处理作业由于长时间获取不到系统资源产生了“饥饿”,同时,作业之间的公平性也得不到保障。所以,单纯用一个截止时间的指标不足以衡量不同作业之间轻重缓急的程度,系统的公平性效率也得不到很好的描述。
效用函数能够标识各类作业随着时间在推移过程中对于系统的重要程度的变化情况。通常,越早完成的作业对于系统产生的效用越高,越接近或超过其截止时间,作业的效用函数下降得越快。由于交互式作业和流数据作业对于截止时间的要求较高,硬性效用函数可以用来表示该类任务,在系统时间超过作业截止时间时,作业的效用瞬间下降到 0或者负数值。而批处理作业由于对于截止时间的要求比较宽松,可以采用软性效用函数,在超出作业截止时间之后也能够产生一部分系统效用。由于效用函数的上述特性,其在处理器和网络调度等领域中经常被用来取代单一的截止时间指标,各种作业的性质都能够在这个函数框架下得到灵活和准确的描述,同时,公平性调度中权重的概念也能够在效用函数中得到很好的体现。进一步考虑,作业的截止时间之所以得不到保障通常由于当前系统的负载较高,系统中的共享资源不能够满足所有作业的需求。所以,在保证系统资源分配公平性与优先调度比较紧急的作业的同时,提高系统的吞吐量和利用率是保障作业截止时间的重要途径。离线版的多资源利用率问题可以规约为NP-hard的背包问题,所以我们考虑采用在线版本的最大资源点乘法设计贪心调度算法。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于效用函数的面向大数据处理的公平资源调度方法,能在公平调度的基础上,有效地保证系统性能的隔离性,提高系统资源的利用率,减少违反服务质量保证的作业比例。
技术方案:为实现上述目的,本发明中的基于效用函数的面向大数据处理的公平资源调度方法,包括以下步骤:
步骤(1):对于数据分析集群中的每一个作业,获取其作业基本数据,所述作业基本数据包括:作业权重、有向无环图、资源需求、运行时间、截止时间和作业的时间窗口;
步骤(2):对于某一作业,根据作业的时间窗口和程序接口(API)性质确定其是否为流数据处理作业,若不是流数据处理作业,则根据运行时间与预设的阈值进行比较来判断其作业类型,运行时间小于或等于预设的阈值为交互式作业;运行时间大于预设的阈值为批处理作业;;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710347165.X/2.html,转载请声明来源钻瓜专利网。