[发明专利]数据处理方法、装置和系统有效

专利信息
申请号: 201810813835.7 申请日: 2018-07-23
公开(公告)号: CN110750582B 公开(公告)日: 2023-05-02
发明(设计)人: 李瑞盛;侯震宇;吴金朋 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F16/25 分类号: G06F16/25;G06F16/28
代理公司: 北京博浩百睿知识产权代理有限责任公司 11134 代理人: 褚敏;宋子良
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据处理 方法 装置 系统
【说明书】:

本申请公开了一种数据处理方法、装置和系统。其中,该方法包括:获取大数据平台的执行作业和执行作业的性能指标,其中,执行作业为对大数据平台中存储的数据进行处理的操作;分析执行作业,得到执行作业的功能分类;对执行作业的性能指标和执行作业的功能分类进行分析,得到大数据平台的功能分布和性能趋势。本申请解决了现有技术中数据处理方法准确度低且效率低的技术问题。

技术领域

本申请涉及大数据平台领域,具体而言,涉及一种数据处理方法、装置和系统。

背景技术

目前,业界大数据平台随着业务的增长和数据的积累,数据规模和计算类型、计算复杂度都在快速增加。例如,大数据平台的数据量达到EB(艾字节,全称为Exabyte)级别,日处理作业数达到千万级、涉及运算的任务达数百万之多;作业类型包括:分布式sql、MapReduce、机器学习、深度学习、图计算、流计算、数据合并等;而开源的spark平台也含spark sql、streaming、mllib、graph等作业类型;每类作业根据处理方式又分为批处理和准实时等多种模式。同时越来越多的客户和项目的加入,大数据平台也存在多集群计算、跨级群存储、多模式多版本共存、多入口提交作业等现状;另外线上集群计算性能也受到从底层硬件到操作系统到分布式平台等各层软硬件以及执行计划、执行引擎、编译引擎、优化组件等多方面的影响和制约,关键指标分类众多各异。

如何在保障用户数据安全的前提下快速获得大数据计算平台线上作业功能实况分布和全方位性能趋势,多维度多层次勾勒大数据平台功能分布全景和性能趋势是大数据平台建设运维的迫切需求。

传统的数据处理方法为了获取线上作业功能分布是间断的利用人工去采样获取,而获取性能趋势一般是多天跟踪少量的作业来获取性能趋势;在某些必需的情况下,为获取更精确的数据是线下搭建一个对等测试集群并且用脱敏的方式从生产集群拖数据到测试集群里执行获取性能结果或分析功能分布。

但是,大数据平台传统的数据处理方法有以下几个缺点:

统计结果数据质量比较低,验证覆盖率低,结论片面;传统方法统计性能指标和功能分类粗粒度,延迟长。无论是勾勒线上功能分布全景还是性能趋势分析,传统利用人工去采样统计或者多天跟踪少量的作业来获取性能趋势的方法分析的作业规模有限制,一般只跟踪数百个作业,用少量作业的性能趋势和功能分布来描述复杂的多集群大数据平台整体,验证覆盖率低,结论片面。

数据安全得不到保障。传统方式通过线下搭建一个对等测试集群并且用人为方式脱敏的方式从生产集群拖数据到测试集群里获取性能结果或分析功能分布。脱敏处理容易有人为疏忽,造成数据泄露风险,同时脱敏数据不等于用户数据,可能违背用户程序的期望,从而造成用户程序崩溃,从而达不到模拟线上实况的目的。另外线下环境、机器配置、执行场景各种复杂度不一致,要完整还原线上真正执行场景尤其性能问题可能行很小。要模拟线上真实运行状况,往往会根据用户提交的真实请求构建测试用例,从而需要分析用户请求,这可能会造成用户知识产权的泄漏。

开销大、浪费严重、测试集过时、可用性差,传统方式统计者和分析者分离,定制化生成指标和多维查询操作成本高,延时过长;同时为了测试集群调度或者扩展性scalability,传统方式模拟生产环境搭建一个跟线上集群对等的测试集群。维护一个规模庞大的集群成本非常高,而且大规模的测试集群绝大部分时间的使用率都很低,造成严重浪费。另外线上的任务和用户作业也在不断增加和更新中,线下搭建的测试集合会随着时间过时,存在兼容性不够、代表性差、成本高等问题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810813835.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top