[发明专利]数据集合复用度改变设备、服务器和数据集合复用度改变方法在审

申请号：	201480007396.0	申请日：	2014-01-27
公开（公告）号：	CN104969197A	公开（公告）日：	2015-10-07
发明（设计）人：	渡边岳大	申请（专利权）人：	日本电气株式会社
主分类号：	G06F12/00	分类号：	G06F12/00;G06F9/50
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	李兰;孙志湧
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据集合用度改变设备服务器方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及例如在使用信息处理设备(计算机)的分布式并行处理系统中的数据管理技术。更具体地说，本发明涉及数据集合的复用管理中的复用度(multiplicity)改变技术。

背景技术

批处理是用于通过使用诸如服务器的信息处理设备在预定定时开始处理并且对给定的输入数据重复执行相同的处理从而获得处理结果的技术。近年来，在批处理中，处理对象数据量增加，并且需要减少处理时间。使用通过使用多个服务器(节点)实现的分布式并行处理的技术被广泛地用作用于提高批处理的速度的技术。在下文中，将参考图2和图4来对这样的分布式并行批处理系统的示例进行说明。

图2是示出包括作为现有技术的分布式并行批处理系统的通信环境的示例的配置图。图4是示出作为现有技术的分布式并行批处理系统中的分布式数据存储中的数据布置的示例的图。图2和图4是在根据本发明的第二示例性实施例的说明中使用的附图，但是在该情况下，将使用图2和图4来对作为现有技术的一般分布式并行批处理系统的配置和操作进行说明。

如图2中所示，分布式并行批处理系统1包括三个节点20至22、分布式并行批处理服务器10、主数据服务器100、客户端500和连接它们的通信网络(在下文中简称为“网络”)1000。

三个节点20至22可以以并行方式(也可以被表达为“同时方式”，这也适用于下面的说明)在每个节点中执行由分布式并行批处理服务器10分割的批处理。如图4中所示，节点20至22中的每一个包括存储器40至42和磁盘50至52。

分布式并行批处理服务器10通过控制三个节点20至22来执行这样的批处理。

客户端500请求分布式并行批处理服务器10来执行批处理。

主数据服务器100向分布式并行批处理服务器10提供主数据集合120，主数据集合120包括输入数据集合和参考数据集合，输入数据集合包括作为批处理中的处理对象的多个输入数据，参考数据集合包括在处理期间参考的数据组。在数据库110中预先设置主数据集合120。

分布式并行批处理服务器10、节点20至22、主数据服务器100和客户端500是通过程序控制进行操作的一般计算机。

在这种情况下，将对该分布式并行批处理系统中的前提(或这也可以被称为假设)进行说明。

首先，批处理是指连续执行“工作”，工作中的每一个是最小处理单元。然而，为了简化说明，在下面的说明中批处理被认为包括单个工作。

随后，即使在工作处理完成之后，也在节点20和22的磁盘50至52和存储器40至42中按原样保持诸如先前由节点20至22执行的工作所使用的输入数据集合和参考数据集合的文件，直到需要删除该文件。如果有必要，则可以在后续工作的执行中重新使用这些数据集合组。这是因为，在分布式并行批处理系统中，可以连续执行使用类似数据集合的多个工作。这样的多个工作的示例包括商品的订单接收处理、对订单的订单签发处理、订购商品的装运处理等。

作为最后的前提，描述应用程序(其为描述工作的处理内容的计算机程序)的文件被预先存储在分布式并行批处理服务器10的磁盘(未示出)中。

随后，将对根据现有技术的分布式并行批处理系统进行说明。

在图2中，首先，客户端500请求分布式并行批处理服务器10执行工作。在工作的执行请求中，客户端500指定作为工作的处理程序的应用程序名称以及执行工作所需要的各种定义信息。各种定义信息包括指示工作的处理对象的数据的输入数据集合名称和指示在处理期间参考的数据组的参考数据集合名称。例如，输入数据集合是任何给定商店的交易(订单等)数据的聚合。例如，参考数据集合是诸如包括关于每个商品的信息的数据或定义一周中的每一天的每个商品的折扣率的数据的聚合。

随后，已经接收到工作的执行请求的分布式并行批处理服务器10将在工作的执行请求中所指定的输入数据集合分割成与节点20至22的数目一样多的三个输入数据集合A至C。然后，分布式并行批处理服务器10将所分割的输入数据集合A至C分别指派给三个节点20至22，作为各个节点的处理对象。通常，当分割输入数据集合时，分布式并行批处理服务器10分割输入数据集合，使得各个分割的输入数据集合A到C的处理时间变得尽可能相等。分布式并行批处理服务器10还基于所读取的数据集合的布置来将所分割的输入数据集合A到C指派给节点20至22的磁盘50至52和存储器40至42(图4)。在这种情况下，分布式并行批处理服务器10仅选择保持输入数据集合A至C的处理所需的数据集合的节点，并且指派所分割的输入数据集合A至C。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于日本电气株式会社，未经日本电气株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201480007396.0/2.html，转载请声明来源钻瓜专利网。

上一篇：利用反射内存实现一致性
下一篇：数据存储装置控制器、数据存储装置、以及用于控制数据存储装置的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F12-00 在存储器系统或体系结构内的存取、寻址或分配
G06F12-02 .寻址或地址分配；地址的重新分配
G06F12-14 .阻止存储器越权使用的保护
G06F12-16 .阻止存储物丢失的保护
G06F12-04 ..字长可变的字或字的一部分的寻址
G06F12-06 ..物理存储块定位的寻址，例如，基地址寻址、模块寻址、专用存储区寻址

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]数据集合复用度改变设备、服务器和数据集合复用度改变方法在审

专利文献下载