[发明专利]支持高速加载的海量结构化数据存储、查询方法和系统有效
申请号: | 201110441775.9 | 申请日: | 2011-12-26 |
公开(公告)号: | CN102521405A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 吴广君;李超;王树鹏;云晓春;王勇;李斌斌 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 支持 高速 加载 海量 结构 数据 存储 查询 方法 系统 | ||
1.一种海量结构化数据的分布式存储方法,包括:
步骤1,从用户端接收高速加载的数据;以及
步骤2,利用双滑动窗口结构,将加载的数据进行分布式缓存,并在固定周期之后将缓存的数据进行分布式存储。
2.如权利要求1所述的分布式存储方法,其中该双滑动窗口结构包括数据写入窗口和数据查询窗口,该数据写入窗口接收实时加载的数据,并修改相关的系统元数据信息;该数据查询窗口接收查询子任务,并根据建立的元数据记录信息直接查询本窗口的数据。
3.一种基于权利要求1或2所述的分布式存储方法的海量结构化数据的分布式查询方法,包括:
步骤1,接收用户发出的查询任务并将查询任务分解为多个查询子任务;以及
步骤2,根据该多个查询子任务,对分布式缓存的各组数据并发执行分批次查询,并分布式返回查询到的结果集。
4.如权利要求3所述的分布式查询方法,还包括:步骤3,对分布式返回的结果集进行汇总,并将汇总后的结果集呈现给用户。
5.如权利要求3或4所述的分布式查询方法,其中步骤1包括根据分区类查询条件、过滤类查询条件或全局统计分析类查询条件将查询任务分解为多个查询子任务。
6.如权利要求5所述的分布式查询方法,其中根据分布式存储的数据的索引类型设置分区类查询条件。
7.如权利要求6所述的分布式查询方法,其中根据以时间属性建立的索引,以时间属性设置该分区类查询条件。
8.如权利要求5所述的分布式查询方法,其中对分布式缓存的各组数据并发执行分批次查询包括针对分布式缓存的每组数据执行下列步骤:
步骤211,为查询分布式缓存数据的操作设置单次最大返回记录数目;
步骤212,根据查询子任务对缓存的数据进行查询,并且基于该单次最大返回记录数目,获得结果集;
步骤213,判断该结果集中的记录数目是否达到单次最大返回记录数目,如果未达到单次最大返回记录数目,则执行步骤215,如果达到单次最大返回记录数目,则由用户确定是否继续进行查询,如果需要继续查询即为多次查询,则执行步骤214,否则为单次查询,执行步骤215;
步骤214,保存当前的查询状态并基于该查询状态继续进行查询,直到获得包括符合查询条件的所有记录的结果集;以及
步骤215,将查询到的结果集返回。
9.如权利要求8所述的分布式查询方法,其中步骤212包括通过分区类查询条件获得目标索引分片,在每个索引分片上并发执行过滤类查询条件,以获得结果集。
10.如权利要求9所述的分布式查询方法,其中步骤212还包括:在获得结果集之后,执行全局统计、分析类查询条件。
11.如权利要求10所述的分布式查询方法,其中执行全局统计、分析类查询条件包括:根据查询子任务中的分组命令,利用hash算法进行数据集快速分组操作。
12.如权利要求10所述的分布式查询方法,其中执行全局统计、分析类查询条件还包括:根据查询子任务中的去重命令进行组内去重或全局去重。
13.如权利要求10所述的分布式查询方法,其中执行全局统计、分析类查询条件包括根据统计函数SUM、COUNT、AVG、MAX、MIN对查询结果计算统计结果,其中SUM是对分组后的字段计算具体数值,COUNT是统计记录条数,AVG是计算平均值,MAX是查询到的所有记录中的最大值,MIN是查询到的所有记录中的最小值。
14.如权利要求8所述的分布式查询方法,其中步骤212包括:当查询到的符合查询条件的记录数目达到该单次最大返回记录数目时获得结果集,或者虽然查询到的符合查询条件的记录未达到该单次最大返回记录数目但已经完成了对所有存储数据的查询时获得的结果集。
15.如权利要求8所述的分布式查询方法,其中步骤213包括:当该结果集中的记录数目等于单次最大返回记录数目时,将“未全面查询”的标记返回给用户,用户基于该标记根据实际需要确定是否继续查询。
16.如权利要求8所述的分布式查询方法,其中步骤214包括:为每个查询子任务提供一个与其相关的标识符,并且根据该标识符保存当前的查询状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110441775.9/1.html,转载请声明来源钻瓜专利网。