[发明专利]一种云计算环境中用于近似查询的多维动态采样方法有效
申请号: | 201810025016.6 | 申请日: | 2018-01-11 |
公开(公告)号: | CN108256028B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 史英杰;刘怡;郭飞;刘昊 | 申请(专利权)人: | 北京服装学院 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100029 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种云计算环境中用于近似查询的多维动态采样方法,包括以下步骤:动态采样系统包括用于创建分层样本的离线处理阶段和用于动态选择样本的在线处理阶段;在离线处理阶段,负载列集解析模块对负载查询语句进行解析;数据特征分析模块对数据特征进行分析;覆盖指数计算模块总覆盖指数;分层列集确定模块选择用于创建分层样本的分层列集;在分层样本数据创建模块进行分层样本创建;在在线处理阶段,查询解析模块对用户查询语句进行解析;样本选择模块选择采样代价最小的分层样本数据;样本大小确定模块确定从每个样本层所抽取的样本大小。本发明有效解决近似查询中由于数据倾斜导致的小分组估计不准确问题,且在有限样本存储空间限制下减少采样代价。 | ||
搜索关键词: | 一种 计算 环境 用于 近似 查询 多维 动态 采样 方法 | ||
【主权项】:
1.一种云计算环境中用于近似查询的多维动态采样方法,其特征在于,该方法包括以下步骤:1)动态采样系统包括用于创建分层样本的离线处理阶段和用于动态选择样本的在线处理阶段;2)在离线处理阶段设置负载列集解析模块、数据特征分析模块、覆盖指数计算模块、分层列集确定模块和分层样本数据创建模块;3)负载列集解析模块对负载查询语句进行解析,抽取出每条负载查询语句的分组列集,计算每种分组列集出现的次数,生成候选分层列集集合CS,并分析其中各候选分层列集CSi之间的关系,将结果输出给数据特征分析模块;4)数据特征分析模块启动一个MapReduce作业扫描原始数据集,并将原始数据集的数据分布结果输出至覆盖指数计算模块;5)覆盖指数计算模块结合数据分布结果计算基于每种候选分层列集CSi进行分层采样情况下的总覆盖指数;6)分层列集确定模块结合覆盖指数及样本存储空间等信息选择用于创建分层样本的分层列集;7)在分层样本数据创建模块启动一个MapReduce作业进行分层样本创建,Map函数对原始数据集进行扫描,根据元组在用于创建分层样本的各分层列集上的取值将其传输至相对应的Reduce函数,Reduce函数更新统计信息并将元组数据输出至分层样本数据集;8)在在线处理阶段设置查询解析模块、样本选择模块和样本大小确定模块;9)查询解析模块对用户在线输入的查询语句进行解析,并抽取出每条用户查询语句的分组列集CSq;10)样本选择模块根据用户查询语句的分组列集CSq从分层样本数据集中选择采样代价最小的分层样本数据;11)样本大小确定模块根据近似查询语句的样本大小确定从每个样本层所抽取的样本大小。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京服装学院,未经北京服装学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810025016.6/,转载请声明来源钻瓜专利网。