[发明专利]数据集合复用度改变设备、服务器和数据集合复用度改变方法在审
| 申请号: | 201480007396.0 | 申请日: | 2014-01-27 |
| 公开(公告)号: | CN104969197A | 公开(公告)日: | 2015-10-07 |
| 发明(设计)人: | 渡边岳大 | 申请(专利权)人: | 日本电气株式会社 |
| 主分类号: | G06F12/00 | 分类号: | G06F12/00;G06F9/50 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李兰;孙志湧 |
| 地址: | 日本*** | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据 集合 用度 改变 设备 服务器 方法 | ||
技术领域
本发明涉及例如在使用信息处理设备(计算机)的分布式并行处理系统中的数据管理技术。更具体地说,本发明涉及数据集合的复用管理中的复用度(multiplicity)改变技术。
背景技术
批处理是用于通过使用诸如服务器的信息处理设备在预定定时开始处理并且对给定的输入数据重复执行相同的处理从而获得处理结果的技术。近年来,在批处理中,处理对象数据量增加,并且需要减少处理时间。使用通过使用多个服务器(节点)实现的分布式并行处理的技术被广泛地用作用于提高批处理的速度的技术。在下文中,将参考图2和图4来对这样的分布式并行批处理系统的示例进行说明。
图2是示出包括作为现有技术的分布式并行批处理系统的通信环境的示例的配置图。图4是示出作为现有技术的分布式并行批处理系统中的分布式数据存储中的数据布置的示例的图。图2和图4是在根据本发明的第二示例性实施例的说明中使用的附图,但是在该情况下,将使用图2和图4来对作为现有技术的一般分布式并行批处理系统的配置和操作进行说明。
如图2中所示,分布式并行批处理系统1包括三个节点20至22、分布式并行批处理服务器10、主数据服务器100、客户端500和连接它们的通信网络(在下文中简称为“网络”)1000。
三个节点20至22可以以并行方式(也可以被表达为“同时方式”,这也适用于下面的说明)在每个节点中执行由分布式并行批处理服务器10分割的批处理。如图4中所示,节点20至22中的每一个包括存储器40至42和磁盘50至52。
分布式并行批处理服务器10通过控制三个节点20至22来执行这样的批处理。
客户端500请求分布式并行批处理服务器10来执行批处理。
主数据服务器100向分布式并行批处理服务器10提供主数据集合120,主数据集合120包括输入数据集合和参考数据集合,输入数据集合包括作为批处理中的处理对象的多个输入数据,参考数据集合包括在处理期间参考的数据组。在数据库110中预先设置主数据集合120。
分布式并行批处理服务器10、节点20至22、主数据服务器100和客户端500是通过程序控制进行操作的一般计算机。
在这种情况下,将对该分布式并行批处理系统中的前提(或这也可以被称为假设)进行说明。
首先,批处理是指连续执行“工作”,工作中的每一个是最小处理单元。然而,为了简化说明,在下面的说明中批处理被认为包括单个工作。
随后,即使在工作处理完成之后,也在节点20和22的磁盘50至52和存储器40至42中按原样保持诸如先前由节点20至22执行的工作所使用的输入数据集合和参考数据集合的文件,直到需要删除该文件。如果有必要,则可以在后续工作的执行中重新使用这些数据集合组。这是因为,在分布式并行批处理系统中,可以连续执行使用类似数据集合的多个工作。这样的多个工作的示例包括商品的订单接收处理、对订单的订单签发处理、订购商品的装运处理等。
作为最后的前提,描述应用程序(其为描述工作的处理内容的计算机程序)的文件被预先存储在分布式并行批处理服务器10的磁盘(未示出)中。
随后,将对根据现有技术的分布式并行批处理系统进行说明。
在图2中,首先,客户端500请求分布式并行批处理服务器10执行工作。在工作的执行请求中,客户端500指定作为工作的处理程序的应用程序名称以及执行工作所需要的各种定义信息。各种定义信息包括指示工作的处理对象的数据的输入数据集合名称和指示在处理期间参考的数据组的参考数据集合名称。例如,输入数据集合是任何给定商店的交易(订单等)数据的聚合。例如,参考数据集合是诸如包括关于每个商品的信息的数据或定义一周中的每一天的每个商品的折扣率的数据的聚合。
随后,已经接收到工作的执行请求的分布式并行批处理服务器10将在工作的执行请求中所指定的输入数据集合分割成与节点20至22的数目一样多的三个输入数据集合A至C。然后,分布式并行批处理服务器10将所分割的输入数据集合A至C分别指派给三个节点20至22,作为各个节点的处理对象。通常,当分割输入数据集合时,分布式并行批处理服务器10分割输入数据集合,使得各个分割的输入数据集合A到C的处理时间变得尽可能相等。分布式并行批处理服务器10还基于所读取的数据集合的布置来将所分割的输入数据集合A到C指派给节点20至22的磁盘50至52和存储器40至42(图4)。在这种情况下,分布式并行批处理服务器10仅选择保持输入数据集合A至C的处理所需的数据集合的节点,并且指派所分割的输入数据集合A至C。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电气株式会社,未经日本电气株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480007396.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





