[发明专利]一种分布式实时数据导入装置在审
申请号: | 202111567545.7 | 申请日: | 2021-12-20 |
公开(公告)号: | CN114238481A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 吴文池;杨磊 | 申请(专利权)人: | 北京滴普科技有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/27 |
代理公司: | 北京中政联科专利代理事务所(普通合伙) 11489 | 代理人: | 赖学能 |
地址: | 100000 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 实时 数据 导入 装置 | ||
本发明公开了一种分布式实时数据导入装置,具体涉及数据导入技术领域,包括manager和works,manager与数据仓库电连接,manager与works电连接。本发明通过重定向功能,可以让segment的连接一直存在,减少重复的建立连接、关闭连接的时间消耗;通过将数据存放在消息中间件中,降低了数据仓库的存储成本;将数据重分布计算提前至本装置中,释放了segment的算力;重新处理的数据被直接存放至segment中,没有重分布数据的过程,不再占用数据仓库的内部网络,提高了数据仓库规模的上限;数据源支持各种消息中间件,增加了可导入的数据源类型;分布式的部署结构,提高了导入速率,且可以根据数据量灵活的增加、减少部署的资源;使用的导入协议,实现了实时数据查询功能。
技术领域
本发明涉及数据导入技术领域,更具体地说,本发明涉及一种分布式实时数据导入装置。
背景技术
我们平常用到的商业关系数据库系统,其主要目标是保证数据存取的ACID特征,为各类商务及事务应用提供强大的数据管理与存取服务。但它们的数据服务的实时性难以得到保障,其根本原因在于:
传统数据库都是磁盘数据库,数据的主拷贝在硬盘上,用户需要访问数据时,DBMS将数据装入主存,即对数据的管理是“基于磁盘的缓存技术”。而磁盘相对于主存是极其低速的存储介质,且磁盘存取速度还和存取数据的物理位置和当前磁盘磁头位置有关。另外,管理缓存(cache)或缓冲(buffer),无论是在操作系统层还是DBMS层,都需要付出较大的代价。即使将磁盘数据全部缓存到内存,其管理代价依然很大,无法满足大多数应用场景实时性的要求。
在内存数据库中,数据库的全部或活动事务存取的数据放于内存中,这样事务对盘的访问完全取消了。由于整个数据库放于内存,数据库则不再作为大量存储文件看待而作为内存中可寻址的大量数据,不同于磁盘数据库中的缓存或缓冲区方式,它完全打破了传统磁盘数据库系统的设计宗旨,带来了其自身新的设计问题。如:传统磁盘数据库系统的数据组织、访问方法、查询处理算法的设计都针对减少磁盘访问次数与有效利用盘存储空间,甚至牺牲CPU时间来减少I/O次数(如查询处理有大量中间数据),而内存数据库的设计则主要考虑如何有效地利用CPU的时间和内存空间。对传统磁盘数据库系统相当有效的数据组织、访问方法、查询处理算法,对于内存数据库系统可能并不有效,相反,一些认为对传统磁盘数据库系统无用的办法,反而成为可行的。
分布式内存数据库,就是将数据分散存储在多个独立的数据节点上,并且以内存作为存储数据的主要介质,使用户能够实现高性能,高并发,高可伸缩及海量数据查询而提供的新型数据库的解决方案。内存数据库在最近几年迅速发展,并在应用中得到越来越广泛的实践。
现有数据导入多采用方法1:使用file协议,把数据导入至数据仓库中;方法2:使用gpfdist协议,把数据导入至数据仓库中。
现有方法1的问题:
该协议只能够读取数据仓库内部的文件,占用了数据仓库本身的容量;
该协议只能由master节点读取数据,即所有导入的数据都要经过master,且需要master节点对所有数据进行分布键的计算后,再将数据分发至各个节点。整个过程,master节点会读取并处理一遍所有的数据,这些数据也会在数据仓库内部网络中重新再传输一遍,极大的消耗了master节点的计算能力和所有节点间的网络带宽;
3)该协议只支持读取文件。
现有方法2的问题:
每个segment都会拉取数据,但该数据并不一定是恰好分布在本segment上,所以会出现数据重分布情况,数据量越大,重分布情况越严重,segment的计算能力和节点间的网络被消耗的越重。这些消耗制约了数据仓库集群的进一步扩容;
只有拉取完所有数据之后,用户才能查到这些数据,当导入的数据量越大,数据仓中的数据延迟越严重,实时性差;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京滴普科技有限公司,未经北京滴普科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111567545.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置