[发明专利]数据中心数据分析类基准测试程序的应用选取方法及系统有效
申请号: | 201310131986.1 | 申请日: | 2013-04-16 |
公开(公告)号: | CN103257923A | 公开(公告)日: | 2013-08-21 |
发明(设计)人: | 贾禛;杜翠兰;周润林;王磊;刘文宝;詹剑锋;张立新 | 申请(专利权)人: | 中国科学院计算技术研究所;国家计算机网络与信息安全管理中心 |
主分类号: | G06F11/36 | 分类号: | G06F11/36 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;田景宜 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据中心 数据 分析 基准 测试 程序 应用 选取 方法 系统 | ||
技术领域
本发明涉及系统测试领域,特别是涉及数据中心的基准测试程序的应用选取方法及系统。
背景技术
随着互联网、物联网技术的快速发展和数字信息的急剧膨胀,数据中心需要服务的用户数越来越多,需要处理的数据量越来越大。数据中心应用的主要目的是从海量数据中获取信息,并将这些信息提供给用户。
数据中心计算机系统,与传统的主要运行并行应用的高性能计算机不同,需要处理大量数目的请求、运行很多相互之间耦合性弱的作业,这些请求本身都是独立的,作业也通常由能够在多个处理器上独立执行的任务组成。与此同时,系统在服务请求或者执行作业时需要处理和分析海量的数据。更为重要的是,提供这样的服务需要严格的成本控制,因而系统必须具有低成本特性,否则服务提供者无法可持续地发展。当前,数据中心越来越多地被一些网络公司,银行,证券等公司所使用。然而如何对数据中心计算机系统进行评测,是业界需要解决的问题。
在现有技术中,基准测试是量化数据中心计算机系统架构研究和优化系统架构的基础。
具体来说,通过运行基准测试程序(Benchmark),研究人员可以获得数据中心系统整体性能或某一方面性能,来达到评测和比较的目的。基准测试程序(Benchmark)由代表性应用组成。
目前在各个较成熟的领域中都有各自的benchmark,如高性能计算中的linpack,联机事务处理中的TPC-C。这些benchmark有各自的特定和相应的特性,已经得到业界的公认。而在数据中心领域中并没有业界公认的benchmark。
现有技术中,基准测试程序包括:Hadoop GridMix,HiBench和CloudSuite。其中Hadoop Gridmix是针对hadoop系统的基准测试程序。它具备评测大规模数据处理系统所需的各个功能模块,包括:产生数据,生成并提交作业,统计作业完成时间等。Gridmix通过模拟hadoop cluster中的实际负载来评测hadoop性能。HiBench是Intel对Hadoop集群构造的一套benchmark suite。HiBench包含Micro Benchmarks,web search,machine learning等应用。CloudSuite是用于测试scale-out应用程序性能的标准测试程序集。CloudSuite的第一个版本由6个应用程序组成,这6个应用程序是当前的数据中心中较为常用的应用程序。
对于基准测试程序GridMix,从选取的应用的编程模型角度考虑,只选取了Map Reduce编程模型,而缺乏其他编程模型。由于所选取的应用的编程模型会对测试结果有很大的影响,因此在评价数据中心计算机系统时如果仅采取一种编程模型的应用,会造成测试结果对特定编程模型的依赖。而基准测试程序GridMix仅简单采用了的几种应用的组合,且未对如何选择应用作出规定。
对于基准测试程序HiBench,HiBench选取的应用为基本应用,Web应用,机器学习,HDFS Benchmark。较之gridmix,HiBench选取的应用比较丰富,但是还存在不足:首先,HiBench的构造没有一定说服力的应用选取方法学;从编程模型的角度而言,不具备编程模型的多样性;且选取应用较多。
对于基准测试程序CloudSuite,虽然CloudSuite是当前数据中心中比较流行的应用程序,但是仍有缺点。首先,考虑CloudSuite的构造方法而言,缺乏应用选取方法学;从编程模型的角度,不具备编程模型的多样性,因此在实际应用中就有其局限性;从应用选取的角度,选取的应用单一,缺乏基本操作,数据仓库,数据挖掘等在数据分析中广泛使用的应用,因此应用集不具备完备性、丰富性、代表性。
WorkLoad suites是美国加州大学伯克利分校提出的一种用于评价MapReduce性能的Benchmark,该技术的特点是作业满足多样性,作业的密度可变,选取数据大小具有代表性,容易产生预期的负载或者一定规模的负载,集群的配置是独立的,所使用的应用程序是代理程序。
WorkLoad suites虽然是一种综合考虑负载性能的benchmark,但还是存在一些缺点,首先:缺少一种应用选取的方法学,其仅仅根据已有的日志程序来模拟应用,很难有广泛的代表性;其次:该技术使用的程序是代理程序,而非真实的程序,并不能反映真实应用中对计算机系统的需求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所;国家计算机网络与信息安全管理中心,未经中国科学院计算技术研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310131986.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置