[发明专利]分布式集群数据导入方法及装置在审
| 申请号: | 201910119281.5 | 申请日: | 2019-02-18 |
| 公开(公告)号: | CN109815295A | 公开(公告)日: | 2019-05-28 |
| 发明(设计)人: | 刘欣然;张鸿;惠榛;吕雁飞;马秉楠;冷健全;王鸿翔;高峰;李恒 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
| 主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/25 |
| 代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 李勤媛 |
| 地址: | 100029*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据节点 文件加载 算子 分布式集群 加载文件 进程设置 数据存储 数据加载 数据文件 顺序读取 外部文件 相关信息 预先设置 进程 第三方 数据发 加载 外部 | ||
本发明公开了一种分布式集群数据导入方法及装置,所述方法包括:数据节点接收Master节点下发的数据加载命令,启动ForeignTableScan算子加载文件加载进程,通过ForeignTableScan算子基于预先设置的外部表,把要请求的数据及外部文件相关信息发送给文件加载进程,其中,文件加载进程设置第三方ETL服务器中;文件加载进程根据数据节点发来的信息顺序读取数据文件,并将数据发送给数据节点;数据节点的ForeignTableScan算子收取数据后,将数据存储到本地。
技术领域
本发明涉及计算机领域,尤其涉及一种分布式集群数据导入方法及装置。
背景技术
分布式集群数据库主要特点是大量数据的快速入库和复杂查询的快速响应。因此数据的快速入库对分布式数据库具有重要意义。分布式数据库KingbaseAnalyticsDB通过将数据和处理工作分配到多个服务器或主机的方式,存储和处理大量的数据。KingbaseAnalyticsDB基于多个单机数据库,它们协同工作,呈现给用户一个数据库的效果。图1描述了构成KingbaseAnalyticsDB数据库系统的组件:Master节点是KingbaseAnalyticsDB数据库系统的入口点。它是客户端连接和提交SQL语句的数据库实例节点。Master能够协调自己和系统中其它数据库实例节点的工作,这些数据库实例称为数据节点(Segment节点),用于存储和处理实际数据。KingbaseAnalyticsDB数据库Segment实例是独立的数据库,每个Segment节点都会存储一部分的数据并且执行大多数的查询处理。当一个用户连接到数据库,并且通过Master节点发起了一个查询,每个Segment节点都会创建一些进程来处理这个查询工作。用户定义的表和相应的索引都分布在数据库系统中的各个可用的Segment节点上,每个Segment存储着一部分不同的数据。用户在KingbaseAnalyticsDB数据库系统中通过Master节点与这些Segment节点交互。其中Master节点也可被称为管理节点,Segment节点也可被称为数据节点或计算节点。
Copy命令把文件系统中文件的数据加载到数据库中。Copy命令先在Master节点里逐行解析数据文件中的数据,并按照数据库内部的格式拼成一条元组,根据表的分布键计算出要下发的数据节点,最后由该数据节点存储该条数据。
这种方案是加载外部数据的传统方法,在分布式数据库里也可以使用。但有其现实的缺点:
1.Copy命令需要Master节点先解析处理数据,根据表分布方式计算数据发送给哪个数据节点。Copy是串行处理每行数据,不能充分利用数据节点的资源,每个数据节点空闲时间较多,使加载性能偏低。
2.Master节点容易成为瓶颈。Master节点是分布式数据库的入口,所有的查询都会经过Master节点。大量数据的入库单个连接执行Copy命令已经会占有较大的硬件资源,在并发相对较高时,Master节点会成为分布式数据库的瓶颈。不仅影响数据加载的性能,也会增加其它类型SQL的响应时间。
3.Copy命令读取的数据文件只能在Master节点的主机上。用户使用Copy命令需要先把数据文件上传到Master节点主机,增加Master节点主机存储负载同时,易用性会比较差。
发明内容
本发明实施例提供一种分布式集群数据导入方法及装置,用以解决现有技术中分布式数据库集群系统数据入库慢的问题。
本发明实施例提供一种分布式集群数据导入方法,包括:
数据节点接收Master节点下发的数据加载命令,启动ForeignTableScan算子加载文件加载进程,通过ForeignTableScan算子基于预先设置的外部表,把要请求的数据及外部文件相关信息发送给文件加载进程,其中,文件加载进程设置第三方ETL服务器中;
文件加载进程根据数据节点发来的信息顺序读取数据文件,并将数据发送给数据节点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910119281.5/2.html,转载请声明来源钻瓜专利网。





