[发明专利]一种查询语句公共部分的提取方法及装置有效

专利信息
申请号: 201310418634.4 申请日: 2013-09-13
公开(公告)号: CN104462095B 公开(公告)日: 2018-06-12
发明(设计)人: 葛星;徐常亮;傅跃兵;姚斌 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京安信方达知识产权代理有限公司 11262 代理人: 解婷婷;栗若木
地址: 英属开曼群岛大开*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 查询 查询语句 特征向量 查询操作 查询对象 有效检测 预定算法 预定条件 重复 过滤 抽象 申请 统计
【说明书】:

一种查询语句公共部分的提取方法及装置;所述方法包括:将查询语句划分为一个或多个查询层次,一个查询层次为进行一次查询操作的查询子句;分别根据各所述查询层次中查询对象的过滤特征和流向特征抽象出各所述查询层次的特征向量;采用预定算法分别对各所述查询层次的所述特征向量进行计算,得到各所述查询层次的特征值;统计各所述特征值的重复次数,选取重复次数符合预定条件的所述特征值作为公共部分。本申请能给有效检测不定时增长的海量查询语句中的公共部分。

技术领域

发明涉及网络领域,尤其涉及一种查询语句公共部分的提取方法及装置。

背景技术

近年来由于互联网、云计算、移动和物联网的迅猛发展,大数据技术(Big Data)逐渐成为学术界和工业界共同关注的研究热点。几乎无所不在的移动设备、RFID、无线传感器等每分每秒都在产生数据,而数以亿计的互联网服务也时时刻刻在产生巨量的交互信息。因之而生的业务需求和竞争压力对数据处理的实时性、有效性提出了更高的要求。

当今越来越多的互联网公司采用大集群来进行海量数据分析。这些任务通常被写成类SQL(Structured Query Language,结构化查询语言)的语句,并通过类Hive(一种数据仓库工具)的数据分析工具翻译为MapReduce(一种编程模型)作业,最终被分布式集群处理和执行。由于业务需要,诸多公司通常维护一批数量巨大、结构复杂、运行耗时的类SQL查询语句来完成大数据分析任务从而生成例行报表。这个集合是参数化(parameteric)和回归化(recurring)的,并且不定时地会有新的语句加入到该集合中,最终被周期性地运行。这样的语句集合称为回归查询集(recurring query set)。

回归查询集中大量存在结构相似,数据共享的公共部分。数据库领域中传统的多重查询优化MQO(Multiple Query Optimization)问题通过复用多重语句间的公共部分来提高查询效率。但此类解决办法(主要是启发式和遗传算法)并不适用于回归查询集这种“大量”语句并“不定时”增长的情况。

随着云计算的日渐流行,云系统中的MQO逐渐成为学术及工业界的研究热点。当前在企业级离线数据处理中,每天需要完成大量的SQL语句作业,以一大型网站离线数据处理ODPS(Open Data Processing Service,开放数据处理服务)部门为例,其支持的生产集群上,每天大约有30,000条SQL语句需要执行。值得注意的是,这些SQL语句所构成的集合具有数量多、结构复杂、语句变动小的特点。即符合上文所说的回归查询集的特点。如何在海量查询语句中检测、共享和重用公共部分极具挑战性。

目前多重语句优化问题的解决办法(主要是启发式和遗传算法)并不适用于回归查询集这种“大量”语句并“不定时”增长的情况。

发明内容

本申请要解决的技术问题是如何有效检测不定时增长的海量查询语句中的公共部分。

为了解决上述问题,本申请提供了一种查询语句公共部分的提取方法,包括:

将查询语句划分为一个或多个查询层次,一个查询层次为进行一次查询操作的查询子句;

分别根据各所述查询层次中查询对象的过滤特征和流向特征抽象出各所述查询层次的特征向量;

采用预定算法分别对各所述查询层次的所述特征向量进行计算,得到各所述查询层次的特征值;

统计各所述特征值的重复次数,选取重复次数符合预定条件的所述特征值作为公共部分。

进一步地,所述查询对象为查询语句中的行变换和源追溯操作;

所述过滤特征是针对一个所述查询层次的行相关的所有过滤操作特征;所述流向特征是针对一个所述查询层次的所有数据流向特征。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310418634.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top