[发明专利]支持基于关键项的分布式进程有效
申请号: | 201110437615.7 | 申请日: | 2011-12-14 |
公开(公告)号: | CN102546402A | 公开(公告)日: | 2012-07-04 |
发明(设计)人: | A·罗斯特朗;P·科斯塔;G·F·奥谢;A·唐纳利 | 申请(专利权)人: | 微软公司 |
主分类号: | H04L12/56 | 分类号: | H04L12/56;H04L12/44;H04L29/08;G06F9/46 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 胡利鸣 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 支持 基于 关键 分布式 进程 | ||
技术领域
本发明涉及支持基于关键项的分布式进程。
背景技术
基于关键项(key-based)的进程常常用在数据中心和执行分布式进程的其他计算实体群集或组中。
数据中心和其他计算实体群集越来越多地可用,并且被用于通常通过将计算密集的进程分布在许多计算实体上以分担该巨大工作量来执行这些进程。例如,大的输入数据集通过如下方式在数据中心处被处理:在数据中心处将该输入数据集在几百或几千个服务器之间划分,使得每个服务器都可以对处理整个数据集的任务做出贡献。为了有效地管理对劳动的所述划分,该巨大的数据集将以合适方式被划分,并且各个服务器处的进程的结果需要合适地组合以提供精确的结果。已经有一种方案被用于使用基于关键项的进程,所述进程是用于使用关键项值对的数据并行计算的进程。通过使用关键项值对,实现了一种框架以用于:接受任务;将任务分解成较小任务;将这些任务分布到许多计算实体以供处理;以及然后将结果相组合以获得输出。例如,在用于在文档语料库中对每个不同单词的频率进行计数的进程中,关键项可以是单词,并且值可以是表示该单词在该文档语料库中的频率的整数。这些关键项可以用于使得来自较小任务的中间结果能够被合适地聚合以便获得最终输出。
供与分布在几百或几千个服务器上的巨大数据集一起使用的基于关键项的进程正越来越多地用作数据处理平台。这些类型的基于关键项的进程通常包括映射阶段和约简阶段。在映射阶段期间,每个服务器都将映射函数并行地应用于输入数据集的各本地块。多个约简器并行地工作以将映射阶段的结果相组合以产生输出。在约简阶段期间,映射阶段的共享相同关键项的所有输出都被呈现给相同的约简器。
不断地需要改善这些类型的基于关键项的进程在数据中心或其他计算实体群集上操作的速度、效率和精确度。
下面描述的实施例不限于解决用于支持基于关键项进程的已知系统和方法的任何或所有缺点的实施方式。
发明内容
下面提供本发明的简要发明内容以便向读者提供基本的理解。本发明内容不是本发明的详尽概观,并且既不标识本发明的关键/重要元素,也不描绘本发明的范围。其唯一目的是以简化形式提供在此公开一些概念作为稍后提供的更详细描述的序言。
描述了支持分布式的基于关键项的进程。在一实施例中,数据中心处的服务器提供分布式的基于关键项的进程以用于执行计算成本高的任务,并且使用以诸如环面之类的几何拓扑的点对点连接而被连接。在一示例中,在物理拓扑之上构建聚合树,每个聚合树都是数据中心中的形成树结构的服务器序列。在一实施例中,针对特定约简函数的数据分组被从树的叶发送给根,并且在沿着该树的每个服务器处,这些分组使用基于关键项的进程的组合器函数被聚合。在一实施例中,如果服务器发生故障,则动态地重新计算这些树,并且触发恢复阶段以重新发送在发生故障的服务器处丢失的任何分组。在一些实施例中,通过检查分组的内容来调度分组。
许多附带特征将随着参考下面的详细描述并结合附图进行理解而得到更好的认识。
附图说明
根据附图阅读以下详细描述,将更好地理解本发明,在附图中:
图1是提供基于关键项的进程的计算实体的直接连接群集的示意图;
图2是基于关键项的进程的示意图;
图3是每一个都被安排为提供基于关键项的进程的多个计算实体的示意图;
图4是示例性的基于关键项的进程的流程图;
图5是在计算实体处用于传送基于关键项的数据的分组的方法的流程图;
图6是在计算实体处用于基于内容的优先级调度的方法的流程图;
图7是具有用于基于关键项进程的聚合树的直接连接拓扑网络的示意图;
图8是供用在直接连接拓扑网络中的计算设备的示意图;
图9是具有二维拓扑的直接连接拓扑网络的示意图;
图10是具有在该网络范围内所定义的第一聚合树的图9网络的示意图;
图11是在具有该网络范围内所定义的第二聚合树的图9网络的示意图;
图12是在具有该网络范围内所定义的第三聚合树的图9网络的示意图;
图13是在具有该网络范围内所定义的第四聚合树的图9网络的示意图;
图14是具有三维拓扑的直接连接拓扑网络的示意图;
图15是具有在该网络范围内所定义的第一聚合树的图14网络的示意图;
图16是在具有该网络范围内所定义的第二聚合树的图14网络的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110437615.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:光纤光栅温度压力多点监测系统
- 下一篇:一种快速夹紧及释放装置