[发明专利]数据集成作业转换在审
| 申请号: | 201780063947.9 | 申请日: | 2017-09-08 |
| 公开(公告)号: | CN110249312A | 公开(公告)日: | 2019-09-17 |
| 发明(设计)人: | 米歇尔·吉劳姆·莫里斯·赫特;夏兰·戴恩斯 | 申请(专利权)人: | 塔兰德公司 |
| 主分类号: | G06F9/54 | 分类号: | G06F9/54 |
| 代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 徐金国;吴启超 |
| 地址: | 美国加利*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据集成 转换工具 目标框架 对应组件 作业转换 数据存储器 第一数据 框架转换 转换数据 组件执行 组件转换 作业存储 可用 响应 分配 | ||
本文公开了用于将数据集成作业从一个框架转换到目标框架的技术。转换工具接收包括多个组件的数据集成作业。每一组件执行分配的任务。第一数据集成作业属于给定的框架。转换工具接收将所述数据集成作业转换为目标框架的数据集成作业的请求。响应于所述请求,转换工具通过确定目标框架中的对应组件是否可用于数据集成作业的每一组件来转换数据集成作业。转换工具将组件转换为对应组件,并将新的数据集成作业存储在数据存储器中。
技术领域
本公开的实施例通常涉及数据处理,更具体地,涉及将处理作业从一个框架转换到另一框架。
背景技术
组织可以出于各种目的处理大量数据,例如分析、库存和营销。可以对大数据进行统计分析,以确定可以通知组织决策的趋势。通常,组织可以设计数据集成工作流程(这里也称为“作业”),所述工作流程包括用于将各种来源的数据组合成数据的统一视图的任务。例如,提取-转换-加载(ETL)作业通常采用来自同构或异构源的一组数据作为输入,格式化数据以供后续分析,并将数据存储在目标数据存储器中。
随着数据集成技术的发展,已经有许多用于处理大量数据的不同框架。例如,MapReduce是一种编程模型,它使用给定数据集上的Map和Reduce函数的组合并行处理大型数据集,以生成一组有用的数据用于分析。作为另一示例,一些集群计算框架可以小批量摄取数据并且在那些小批量上进行弹性分布式数据集(RDD)转换。
考虑到诸如给定数据类型、作业复杂性和数据量的最快处理时间等因素,开发者可以选择适于所需数据集成作业的框架。但是,鉴于可用于处理大量数据的不同数量的框架,开发者可能无法立即确定要使用哪个框架。例如,对于给定的数据集成作业,标准Java框架可能比使用MapReduce框架执行更快地产生结果。或者,鉴于底层数据的大小,批处理流作业可能最有效地使用资源来处理数据。
因此,开发者可能希望针对给定的数据集成作业试用不同的框架。但是,开发者可能需要为每一框架手动创建作业。此外,开发者可能想要将数据集成作业从一个系统迁移到另一系统,无论系统是否在不同的框架下执行作业。因此,开发者需要使用所述框架重新编码作业。因为每一框架可能具有完全不同的底层组件,所以一个框架中的数据集成作业相对于另一框架中的相同数据集成作业将具有不同的复杂性。因此,在另一框架中重新创建数据集成作业可能是一个耗时且容易出错的过程。
发明内容
本文提供的一个实施例描述了一种用于将数据集成作业从源框架转换到目标框架的方法。所述方法通常包括:接收将第一框架的第一数据集成作业转换为第二框架的第二数据集成作业的请求。第一数据集成作业包括多个组件。每一组件执行分配的任务作为第一数据集成作业的一部分。响应于所述请求,所述方法通常执行以下步骤:对于第一数据集成作业的每一组件:确定与第一数据集成作业中的组件对应的第二框架中的组件是否可用。如果可用,则生成将要包括在第二数据集成作业中的经转换组件。如果不可用,则标记组件以供查看。第二数据集成作业存储在数据存储器中。
本文提供的另一实施例描述了一种存储指令的计算机可读存储介质。当在处理器上执行时,所述指令执行将数据集成作业从源框架转换到目标框架的操作。所述操作本身通常包括:接收将第一框架的第一数据集成作业转换为第二框架的第二数据集成作业的请求。第一数据集成作业包括多个组件。每一组件执行分配的任务作为第一数据集成作业的一部分。响应于所述请求,所述操作通常执行以下步骤:对于第一数据集成作业的每一组件:确定与第一数据集成作业中的组件对应的第二框架中的组件是否可用。如果可用,则生成将要包括在第二数据集成作业中的经转换组件。如果不可用,则标记组件以供查看。第二数据集成作业存储在数据存储器中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于塔兰德公司,未经塔兰德公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780063947.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:云计算系统中针对虚拟机的资源管理
- 下一篇:错误检测码保持模式同步





