[发明专利]一种面向流式数据的自动伸缩及迁移的方法及装置在审
申请号: | 201310455128.2 | 申请日: | 2013-09-29 |
公开(公告)号: | CN103530189A | 公开(公告)日: | 2014-01-22 |
发明(设计)人: | 王旻;韩冀中;李勇;张章;孟丹 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 数据 自动 伸缩 迁移 方法 装置 | ||
技术领域
本发明涉及涉及计算机并行计算领域,特别涉及一种面向流式数据的自动伸缩及迁移的方法及装置。
背景技术
近年来,随着实时搜索、广告推荐、社交网络、日志在线分析等应用的不断发展,一种新的数据形态——流式数据正在兴起。流式数据是指一组大量、快速、不间断的事件序列。在不同场景下,流式数据可以是实时查询、用户点击、在线日志、流媒体等多种数据形式。流式应用注重实时交互,过高延时的响应会严重影响其功能或用户体验。由于流式数据的重要性和独特性,一批流式数据处理系统应用而生,例如Yahoo!的S4系统。
事件是流式数据的基本组成单位,以键-值(key-value)形式出现。处理单元是处理事件的基本单位,有特定的事件类型和键,专门处理具有相应类型和键的事件。处理单元接收流式数据,对其中的事件进行处理,然后输出事件或者直接发布结果。
流式数据具有实时性强、数据量大、动态波动等特点。流式数据出现较大幅度的动态波动,会对系统造成两个层面的影响。其一,数据动态波动会直接改变处理单元的实际负载;其二,由于处理单元部署在物理节点上,使用其CPU、内存、网络带宽等物理资源,数据动态波动将间接改变物理节点的负载。如何根据负载变化自动调整处理单元的资源配额、实现动态负载均衡是流式数据处理的重要挑战。但是,现有流式数据处理系统没能解决好这些问题,主要表现在以下两个方面:
1、处理单元的资源配额不能适应不断变化的实际负载。在流式数据处理系统中,部署在同一物理节点的多个处理单元会共同使用机器上的物理资源。为了避免处理单元间出现资源竞争、影响性能的现象,现有系统对处理单元进行资源隔离,分配固定的资源配额。但是,流式数据经常随时间推移发生较大幅度的波动,导致处理单元实际负载的变化,最初分配给处理单元的资源配额不能适应动态变化的资源需求。
2、不支持处理单元迁移。在初次部署处理单元时,现有系统会根据相关策略将其调度到负载较低的物理节点上,实现静态负载均衡。但是流式数据经常动态波动,间接导致物理节点的负载发生变化。假如因为数据波动导致物理节点过载,影响相关处理单元的性能,则系统需要通过迁移处理单元来实现动态负载均衡。
发明内容
本发明所要解决的技术问题是提供一种能够适应不断变化的实际负载、支持处理单元转移的面向流失数据的自动伸缩及迁移的方法及装置。
本发明解决上述技术问题的技术方案如下:一种面向流式数据的自动伸缩及迁移方法,包括以下步骤:
步骤1:调度管理器包括收集模块、调度模块和监控模块,所述调度模块定时从存储待调度作业的调度队列中实时获取待调度作业,并根据待调度作业的信息生成包括多个处理单元的处理单元队列;
步骤2:调度管理器中的调度模块将所有处理单元分别分配给对应的物理节点,执行器在启动处理单元时,先在该处理单元所在的物理节点上创建一个linux容器,然后在linux容器内部启动处理单元,所述调度管理器与每个执行器分别设置于不同的物理节点上;
步骤3:收集模块通过监控linux容器的资源利用率得到处理单元的资源利用率,收集模块将收集到的处理单元的资源利用率发送给监控模块;
步骤4:监控模块判断所述资源利用率是否大于预定的扩容阈值,或者小于预定的缩容阈值,根据判断结果调整处理单元的资源配额;
步骤5:监控模块判断所述资源利用率是否满足处理单元的迁移条件,如果满足,将处理单元迁移到其它的资源利用率低的物理节点上,休眠预定时间,转入步骤3,当所有处理节点处理完毕,结束。
本发明的有益效果是:本发明提出一种处理单元的资源配额自动伸缩方法,根据处理单元的资源利用率,感知处理单元的实际负载变化,适时提高或减少资源配额。该方法根据实际负载动态调整资源,避免资源浪费,提高了资源利用率。并提出一种处理单元迁移方法,在物理节点负载明显不均衡时,迁移特定的处理节点,实现了面向流式数据的动态负载均衡。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述资源利用率包括CPU的资源利用率、内存的资源利用率和网络带宽的资源利用率。
进一步,所述步骤4进一步包括:
步骤4.1:监控模块获取处理单元的资源利用率;
步骤4.2:如果资源利用率大于预定的扩容阈值,则增加该处理单元的资源配额;
步骤4.3:如果资源利用率小于预定的缩容阈值,则减少该处理单元的资源配额。
进一步,所述步骤5中监控模块判断所述资源利用率是否满足处理单元的迁移条件进一步包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310455128.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种盐酸依匹斯汀及其中间体的制备方法
- 下一篇:混凝土抗裂性能系统化检测方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置