[发明专利]分析大规模数据处理作业的方法、系统以及计算机可读存储设备有效
申请号: | 201780089600.1 | 申请日: | 2017-10-18 |
公开(公告)号: | CN110537170B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 卡洛斯·亚历山大·加西亚·德索萨;李叶盛;罗斯·文森特·科斯基;洛维那·沙玛;阿里夫·苏科措 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34 |
代理公司: | 上海华诚知识产权代理有限公司 31300 | 代理人: | 肖华 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分析 大规模 数据处理 作业 方法 系统 以及 计算机 可读 存储 设备 | ||
用于分布式计算系统中的数据分析的方法、系统和装置,通过访问存储在第一处理区与分布式数据处理作业相关联的数据,检测识别与分布式数据处理作业相关联的特定子作业的信息,将识别信息与存储在第二处理区的数据进行比较,以及基于比较的结果,将附加子作业识别为与分布式数据处理作业相关联。方法、系统和装置还用于对于分布式数据处理作业,将与特定子作业相关联的特定输出数据和与附加子作业相关联的附加输出数据相关联,基于与特定子作业和附加子作业中的每一个相关联的输出数据,确定分布式数据处理作业的性能数据,以及提供用于显示的分布式数据处理作业的性能数据。
背景技术
大规模数据处理已经在网络公司和各个行业中广泛使用。大规模数据处理可以包括并行处理,并行处理通常涉及同时对大数据集的每个元素进行一些操作。各种操作可以在数据并行流水线中被链接在一起,以创建用于处理数据集的有效机制。数据集的产生可以涉及创建子作业或者对于主作业或父作业执行的阶段,其中每个子作业可以在不同的处理区上执行。然而,考虑到大规模数据处理作业的大小,难以分析大规模作业的性能。
发明内容
本说明书总体涉及大规模数据处理作业。
在数据处理流水线完成运行之后,可能难以实现诊断流水线中的异常。一些挑战包括缺少日志、难以在多个运行中整理数据、将信息与其他处理事件相关联、以及确定主作业与该主作业的阶段或子作业之间的关系。可能存在一系列相关的诊断信息和分析,包括流水线故障、缓慢和性能指标。因此,需要一种数据分析工具,该数据分析工具能够收集关于分布式数据处理作业的相关信息,并且能够诊断数据流水线中的异常。
通常,本说明书中所描述的主题的一个创新方面可以被体现在方法中,所述方法包括以下动作,访问存储在第一处理区的存储设备中的数据,所述数据与已经执行的特定分布式数据处理作业相关联;从存储在所述存储设备中的所述数据检测识别信息,所述识别信息识别与所述特定分布式数据处理作业相关联的特定子作业;响应于检测到识别与所述特定分布式数据处理作业相关联的特定子作业的所述识别信息,将所述识别信息与存储在第二处理区的存储设备中的数据进行比较;基于将所述识别信息与存储在所述第二处理区的所述存储设备中的数据进行比较的结果,将附加子作业识别为与所述特定分布式数据处理作业相关联;对于所述特定分布式数据处理作业,将与所述特定子作业相关联的特定输出数据和与所述附加子作业相关联的附加输出数据相关联;基于与所述特定子作业相关联的所述特定输出数据和与所述附加子作业相关联的所述附加输出数据,确定所述特定分布式数据处理作业的性能数据;以及基于与所述特定子作业相关联的所述特定输出数据和与所述附加子作业相关联的所述附加输出数据,提供用于显示的所述特定分布式数据处理作业的所述性能数据。
在某些实施方式中,所述方法还包括以下动作,将所述特定分布式数据处理作业的性能数据与性能阈值进行比较;以及基于将所述特定分布式数据处理作业的性能数据与所述性能阈值进行比较的结果,提供通知。
在某些实施方式中,所述通知包括以下中的一个或多个:听觉警报、触觉警报、视觉警报或电子消息。在某些实施方式中,所述性能数据包括以下中的一个或多个:运行时间、存储器使用、CPU时间、盘使用、每个子作业与所述特定分布式数据处理作业之间的关系、与所述特定分布式数据处理作业相关联的一个或多个计数器、或处理状态。
在某些实施方式中,所述存储器使用、所述CPU时间、所述盘使用、每个子作业与所述特定数据处理作业之间的所述关系、与所述特定分布式数据处理作业相关联的一个或多个所述计数器、和/或所述处理状态根据所述通知、特别是到数据处理器的信号而改变,和/或根据与所述性能阈值有关的所述比较的所述结果而改变。
在某些实施方式中,所述方法还包括以下动作,显示包括所述性能数据的显示的用户界面,其中,所述用户界面包括交互式分层结构。
在某些实施方式中,所述识别信息包括在所述数据中所识别的公共前缀。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780089600.1/2.html,转载请声明来源钻瓜专利网。