[发明专利]支持依赖和时间平衡的云工作流任务聚类方法在审
申请号: | 201710202595.2 | 申请日: | 2017-03-30 |
公开(公告)号: | CN106991006A | 公开(公告)日: | 2017-07-28 |
发明(设计)人: | 严伟;杨朔;杨威;吕跃华;陶砾;施扬朋 | 申请(专利权)人: | 浙江天正信息科技有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杜军 |
地址: | 310006 *** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 支持 依赖 时间 平衡 工作流 任务 方法 | ||
本发明公开了一种支持依赖和时间平衡的云工作流任务聚类方法。本发明在对流程图中同一层级的任务进行聚类时优先考虑了任务之间的数据依赖关系,并考虑了聚类之间的时间平衡,本发明在对同一层级的任务进行聚类时并不是简单地将具有相同子任务的父任务聚集在一起,而是综合考虑了这些任务共有的子任务以及它们各自特有的子任务,在此基础上提出了任务关联度的概念和计算公式来表征任务之间的依赖程度。同时,本发明在优先考虑任务之间的依赖关系的基础上还考虑了各个任务的运行时间,同时保证了聚类的依赖平衡与时间平衡。通过与传统聚类方法进行实验比较可以发现,本发明对任务进行聚类可以更有效地减少工作流的完成时间。
技术领域
本发明属于云工作流调度中的工作流运行时间优化技术。在对同一水平层级的任务进行聚类时,基于任务之间的数据依赖关系以及聚类之间的时间平衡,提出了支持依赖和时间平衡的云工作流任务聚类方法。
背景技术
在各种科学领域(如物理学、天文学和生物医学)的研究中都需要运行大规模的应用程序来处理数据,这些大规模的应用程序通常为工作流应用。这些工作流应用由许多具有依赖关系的计算密集型任务组成,这些任务的计算量千差万别,有些任务的运行时间只需要几秒而有些则需要几个小时。当在云计算环境中执行这些运行时间很短的任务时会存在显著的调度开销,调度开销产生的额外时间远远超过任务本身的运行时间,从而影响整个流程的执行时间。
由于云环境是按使用量收费,额外的系统开销也会增加成本。为了减少这种开销的影响,任务聚类技术应用而生。它将细粒度任务分组为粗粒度任务,减少需要执行的任务数量同时也增加了任务的计算粒度。任务聚类是一种工作流运行时间优化技术,它将多个短任务合并到单个作业中,从而减少了调度开销并缩短了流程的执行时间。
现有的任务聚类技术主要分为两类:时间平衡聚类和依赖平衡聚类。前者往往只考虑了时间平衡性,而忽视了流程的结构特征以及任务之间的数据依赖关系。数据依赖性意味着在两个任务之间存在数据传输(一个任务的输出数据是另一个任务的输入数据)。因此在聚类时应尽量将具有相同子任务的父任务聚集在一起,依赖性不平衡意味着下层任务必须等待更多的上层任务执行结束才能开始执行,这样一个层级上的任务集会延迟下一层级(甚至后续层级)的任务的开始时间,从而影响任务执行的并行性。
同样的,依赖平衡聚类往往会忽视聚类之间的时间平衡性。在流程图中,同一层的任务可能会有不同的运行时间。不考虑运行时间的变化去合并任务会导致负载失衡。比如一些聚类可能由短任务组成,而其他聚类由长任务组成。这种时间上的不平衡会延迟下一级任务的开始时间。因此,良好的聚类策略应该保证每一个聚类的执行时间都尽可能相近。
发明内容
本发明针对现有技术的不足,提出了一种支持依赖和时间平衡的云工作流任务聚类方法。该方法在对流程图中同一层级的任务进行聚类时优先考虑了任务之间的数据依赖关系,在此基础上考虑了聚类之间的时间平衡,有效缩短了工作流的完成时间。
本发明方法的具体步骤是:
步骤(1).输入流程图中某一层待聚类的任务集taskList;流程图是工作流W=(T,E)的图形化表示,通过有向无环图(DAG)来描述;其中T={t
步骤(2).计算该层任务中任意两个任务之间的关联度cor(t
关联度的计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江天正信息科技有限公司,未经浙江天正信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710202595.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:操作系统的切换方法及装置
- 下一篇:一种基于GPU片上的数据处理方法及设备