[发明专利]分析大规模数据处理作业的方法、系统以及计算机可读存储设备有效
申请号: | 201780089600.1 | 申请日: | 2017-10-18 |
公开(公告)号: | CN110537170B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 卡洛斯·亚历山大·加西亚·德索萨;李叶盛;罗斯·文森特·科斯基;洛维那·沙玛;阿里夫·苏科措 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34 |
代理公司: | 上海华诚知识产权代理有限公司 31300 | 代理人: | 肖华 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分析 大规模 数据处理 作业 方法 系统 以及 计算机 可读 存储 设备 | ||
1.一种用于分布式计算系统中的数据分析的计算机实施的方法,其特征在于,所述方法包括:
访问存储在第一处理区(104,106,108)的存储设备中的数据,所述数据与已经执行的特定分布式数据处理作业相关联;
从存储在所述存储设备中的所述数据检测识别信息,所述识别信息识别与所述特定分布式数据处理作业相关联的特定子作业;
响应于检测到识别与所述特定分布式数据处理作业相关联的特定子作业的所述识别信息,将所述识别信息与存储在第二处理区(104,106,108)的存储设备中的数据进行比较;
基于将所述识别信息与存储在所述第二处理区(104,106,108)的所述存储设备中的数据进行比较的结果,将附加子作业识别为与所述特定分布式数据处理作业相关联;
对于所述特定分布式数据处理作业,将与所述特定子作业相关联的特定输出数据和与所述附加子作业相关联的附加输出数据相关联;
基于与所述特定子作业相关联的所述特定输出数据和与所述附加子作业相关联的所述附加输出数据,确定所述特定分布式数据处理作业的性能数据;
将所述特定分布式数据处理作业与特定流水线(210)相关联,其中,对于所述特定分布式数据处理作业,将与所述特定子作业相关联的所述特定输出数据和与所述附加子作业相关联的所述附加输出数据相关联包括,将所述特定子作业和所述附加子作业与所述特定流水线(210)相关联;以及
基于与所述特定子作业相关联的所述特定输出数据和与所述附加子作业相关联的所述附加输出数据,提供用于显示的所述特定分布式数据处理作业的所述性能数据。
2.根据权利要求1所述的方法,其特征在于,还包括:
将所述特定分布式数据处理作业的性能数据与性能阈值进行比较;以及
基于将所述特定分布式数据处理作业的性能数据与所述性能阈值进行比较的结果,提供通知。
3.根据权利要求2所述的方法,其特征在于,所述通知包括以下中的一个或多个:听觉警报、触觉警报、视觉警报或电子消息。
4.根据权利要求2所述的方法,其特征在于,所述性能数据包括以下中的一个或多个:运行时间、存储器使用、CPU时间、盘使用、每个子作业与所述特定分布式数据处理作业之间的关系、与所述特定分布式数据处理作业相关联的一个或多个计数器、或处理状态。
5.根据权利要求4所述的方法,其特征在于,所述运行时间、所述存储器使用、所述CPU时间、所述盘使用、每个子作业与所述特定分布式数据处理作业之间的所述关系、与所述特定分布式数据处理作业相关联的一个或多个所述计数器、性能度量和/或所述处理状态根据所述通知和/或根据与所述性能阈值有关的所述比较的所述结果而改变。
6.根据权利要求1至5中任一项所述的方法,其特征在于,还包括:
显示包括所述性能数据的显示的用户界面(270),
其中,所述用户界面(270)包括交互式分层结构。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述识别信息包括在所述数据中所识别的公共前缀。
8.根据权利要求1至5中任一项所述的方法,其特征在于,
还包括:
确定所述特定流水线(210)的第一运行的流水线性能数据;以及
确定所述特定流水线(210)的第二运行的流水线性能数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780089600.1/1.html,转载请声明来源钻瓜专利网。