[发明专利]数据查询方法及装置有效

申请号：	201810501501.6	申请日：	2018-05-23
公开（公告）号：	CN108874897B	公开（公告）日：	2019-09-13
发明（设计）人：	杜威科;史宁宁	申请（专利权）人：	新华三大数据技术有限公司
主分类号：	G06F16/182	分类号：	G06F16/182;G06F16/174;G06F16/14
代理公司：	北京超成律师事务所 11646	代理人：	王小梅
地址：	450000 河南省郑州市郑州高新***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	目标数据块行偏移量目标数据数据查询数据块行数数据查询效率数据获取指令标识信息发送目标获取目标获取指令数据对应用户需求分页消耗查询
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种数据查询方法及装置，包括：获取目标数据对应的第一行偏移量和第一长度；根据所述第一行偏移量和第一长度及所述各个数据块的行数，确定所述目标数据对应的目标数据块；根据所述第一行偏移量和第一长度及所述各个数据块的行数，确定所述目标数据在所述目标数据块中对应的第二行偏移量和第二长度；向所述目标数据块所对应的执行器Executor发送目标数据获取指令，所述目标数据获取指令包括所述目标数据块的标识信息，及所述目标数据块对应的所述第二行偏移量及所述第二长度。本公开实施例提供的数据查询方法及装置能够根据用户需求直接从目标HDFS文件中获取指定的数据，实现分页查询，并可以提高数据查询效率，减少对内存的消耗。

技术领域

本公开涉及大数据技术领域，尤其涉及一种数据查询方法及装置。

背景技术

Spark SQL是一种基于Spark的分布式SQL引擎。

在通过Spark SQL(一种基于Spark的分布式SQL引擎)从HDFS(HadoopDistributed File System，分布式文件系统)中读取数据时，相关技术仅能实现查询前N行数据，而不能按照用户需求查询前N行至前N+M行的数据，因此无法实现分页查询。

发明内容

有鉴于此，本公开提出了一种数据查询的方法，能够根据用户需求直接从HDFS中获取指定的数据，实现分页查询，并可以提高数据查询效率，减少对内存的消耗。

根据本公开的一方面，提供了一种数据查询方法，应用于驱动器Driver，所述方法包括：

获取目标数据对应的第一行偏移量和第一长度，其中，所述第一行偏移量指示目标数据在目标HDFS文件中的起始行，所述第一长度为所述目标数据的行数；

获取所述目标HDFS文件中各个数据块的行数；

根据所述第一行偏移量和第一长度及所述各个数据块的行数，确定所述目标数据对应的目标数据块；

根据所述第一行偏移量和第一长度及所述各个数据块的行数，确定所述目标数据在所述目标数据块中对应的第二行偏移量和第二长度；向所述目标数据块所对应的执行器Executor发送目标数据获取指令，所述目标数据获取指令包括所述目标数据块的标识信息，及所述目标数据块对应的所述第二行偏移量及所述第二长度。