[发明专利]用于分布式数据仓库的连接查询系统和方法有效
申请号: | 201010556490.5 | 申请日: | 2010-11-17 |
公开(公告)号: | CN102467570A | 公开(公告)日: | 2012-05-23 |
发明(设计)人: | 伍涛;胡卫松;刘晓炜;齐红威 | 申请(专利权)人: | 日电(中国)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 赵伟 |
地址: | 100191 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 分布式 数据仓库 连接 查询 系统 方法 | ||
技术领域
本发明涉及数据库技术,具体涉及一种用于分布式数据仓库的连接查询系统和方法。
背景技术
随着信息技术的飞速发展,海量数据的存储、检索和分析变得非常关键。数据仓库即应运而生,其通常的定义是:一个面向主题的、集成的、稳定的、随时间变化的数据集合,用于支持管理决策。数据仓库有两个层次的含义,一是它用于支持决策,面向分析数据处理;二是它由多源异构数据组成,集成后按照主题重组,并包含历史数据。大容量、高性能、高可用性、可拓展性、可管理性以及按需服务成为衡量当今数据仓库和分布式文件系统的关键指标。
传统的数据仓库建立于重量级的服务器及数据仓库系统上,造价昂贵,拓展性差。数十台单机节点组成的集群,即已达到并行处理的瓶颈。但随着互联网服务的爆炸式发展,数据与信息呈现指数式增长,针对互联网数据的搜索引擎、用户数据挖掘、商业智能等应用,传统的数据仓库已经不能满足需求。基于分布式文件系统和映射/规约(Map/Reduce)分布式计算框架的大规模数据处理方法,可以建造在普通个人电脑之上,其造价低廉、拓展性强、支持异构数据格式,逐渐被业界采用,例如Google的GFS分布式文件系统、Facebook的Hive数据仓库等。
尽管如此,这些数据仓库目前一般用于离线的定时数据批处理,其效率还远不能达到实时性的要求。特别地,数据连接查询是基本的、频繁使用的功能,因此数据连接查询的效率对改善系统的总体性能来说意义重大。在分布式的数据环境中,数据连接查询的含义是查找集群中的数据并连接关联的字段,其本质是在海量的数据存储中建立一种合理的数据结构和分布式数据存储机制,以支持高效的连接查询。由于多个数据表可能存储于不同的数据节点上,如何快速定位这些分布式数据表并提高查询和排序的性能,是提升数据连接查询效率的关键所在。在传统的数据仓库技术中,数据聚簇、并行查询、数据分区是常见的提升性能的技术,下面一一加以介绍。
由于很多查询需要顺序访问大量的数据,数据聚簇技术解决了顺序访问的问题,聚簇通过物理地将表放在一起以获得顺序的数据聚簇,数据聚簇是数据库管理系统的功能,依赖于数据库本身的聚簇技术。很显然,这个技术在分布式的数据系统中不能直接使用。
并行处理是将大数据量的查询分成小的部分然后并行地执行以提高性能。并行处理技术可以用于数据加载和数据重组。并行处理技术和数据分区紧密联系。服务器硬件的并行架构也影响并行处理的方式。一些物理选项对高效的并行处理很重要。并行处理和分区技术一起提供了提高性能的巨大潜力。
数据分区是指针对大量的数据表(超过百万行记录),因其载入效率低、索引时间长、备份和还原耗时大、遍历更新慢,故采用数据表分区将表和索引都进行分区管理,这样便于维护且操作方便。对于数据仓库来说,数据分区是关键的决策,必须在实施前计划好,因为后续的更改将耗费巨大。数据分区可以垂直分区和水平分区,在垂直分区中,将选择的列编组分割为分区,每个分区和原始表都具有相同的行数;在水平分区中,将选择的行分组进行分区,每个分区和原始表都具有相同的列数。数据分区具有很多关键的优点,如查询时只需查必要的分区、分区可脱机维护、更快地建立索引、数据损坏不扩散、分区与磁盘映射是输入输出平衡等。但是,传统的数据分区技术,基于数据库构建的数据仓库,在分区时,一般从业务逻辑出发来设定数据分区的准则,没有考虑到分布式处理的能力。正因为此,在不同分区的数据合并时,效率较低。最重要的是,这项技术无法支持巨量的分布式数据处理请求。而且,一旦发生数据更新,则所有的过程都要重新执行。
由于传统的数据仓库技术对分布式计算框架的支持不足,使得其拓展性、实时处理性具有瓶颈。在数据连接查询中,由于数据节点之间大量数据传输以及归并排序操作,导致资源利用率低下,性能较低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司,未经日电(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010556490.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于视频图像的路面距离检测方法及装置
- 下一篇:液晶显示装置