[发明专利]一种分布式SQL处理方法及系统有效

专利信息
申请号: 201711260747.0 申请日: 2017-12-04
公开(公告)号: CN107967335B 公开(公告)日: 2020-10-16
发明(设计)人: 石宣化;金海;王斐 申请(专利权)人: 华中科技大学
主分类号: G06F16/242 分类号: G06F16/242;G06F16/25
代理公司: 华中科技大学专利中心 42201 代理人: 廖盈春;李智
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 分布式 sql 处理 方法 系统
【说明书】:

发明公开了一种分布式SQL处理方法及系统,包括:接收用户提交的应用程序,并将提交的应用程序存入应用队列;分析应用队列里面每个应用程序的代码,每个应用程序包括多个中间结果,将每个应用程序中需要在该应用程序中重复使用的中间结果做第一标记,将每个应用程序中需要在其之后的应用程序中重复使用的中间结果做第二标记;在保证数据一致性的同时,完成各个Worker上并行运行应用队列中的应用程序,并根据第一标记和第二标记利用各标记对应的中间结果,提高运行速度。本发明更精准的选择需要缓存的数据,避免了人工选择的失误,从而提高了程序的性能。

技术领域

本发明涉及大数据处理技术领域,更具体地,涉及一种分布式SQL处理方法及系统。

背景技术

许多现实中的应用都涉及到结构化查询语言(SQL,Structured Query Language)数据处理。分布式数据处理系统,通过使用多个机器,并行处理数据,从而达到较高的计算效率,但仍存在着内存资源利用不合理等问题。在学术界,已经有许多关于这些问题的研究。

Spark是2009年发源于美国加州大学伯克利分校AMP Lab的集群计算平台的一个研究性项目。之后,2010年Spark项目开源,2013年成为Apache基金项目,2014年成为Apache顶级基金项目。它立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。但Spark对内存的需求很大,内存的大小直接影响Spark的性能。

弹性分布式数据集(Resilient Distributed Datasets,RDD)是Spark中的基本数据结构。在Spark进行计算过程中,特别是迭代计算,有些RDD可能会用到多次,把这些RDD缓存到内存中可以提高执行效率,但Spark系统本身并没有做这个选择的功能,而是把这个工作交给开发人员。但是随着Spark应用程序流程的复杂,选择合适的RDD进行缓存对开发人员来说是一件难事。并且RDD的缓存(cache)级别固定,不能根据动态运行情况来进行调整,这会影响内存使用效率。

关于缓存管理的研究,Ganesh等人提出PACMan系统,随着集群上机器有了大内存,内存计算输入的cache是一个用来加速数据分析的好方法,但是这些jobs有很多任务,并行运行,一个job只有在他的所有任务都cache才会加速。事实上,单一的任务,当他的输入没有被cache,一样会拖慢整个job。所以为了解决这种要么全部cache,要么全不cache的问题,PACMAN是一个cache服务,用来管理分布式cache。本质上是为了提高任务完成时间和集群效率。因此PACMAN实现两个cache替换策略来减小任务平均完成时间,通过驱逐大的未完成的输入,另一种策略是驱逐小的很小访问的输入。

SQL应用程序通常同一阶段的多个应用,会处理同一批数据,他们有很多公共的中间结果。Spark-SQL是基于Spark的SQL处理系统,他把选择合适数据进行缓存的工作交给编程人员,并且需要编程人员释放缓存数据。

综上所述,在大数据系统中合理管理缓存对程序执行效率有重要的影响;在分布式SQL处理系统中,各个应用程序之间和应用程序之内往往存在着可以重复利用以免重复计算的中间结果,但是怎么筛选出这些可以利用的中间结果目前需要编程人员人工确定,这需要编程人员有深厚的编程功底,而且容易出现人工错误。

发明内容

针对现有技术的缺陷,本发明的目的在于解决现有分布式SQL处理系统中,各个应用程序之间和应用程序之内往往存在着可以重复利用以免重复计算的中间结果,但是怎么筛选出这些可以利用的中间结果目前需要编程人员人工确定,这需要编程人员有深厚的编程功底,而且容易出现人工错误的技术问题。

为实现上述目的,第一方面,本发明提供一种分布式SQL处理方法,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711260747.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top