[发明专利]一种支持多条件检索和实时分析的大数据处理方法有效

申请号：	201710258652.9	申请日：	2017-04-19
公开（公告）号：	CN107122437B	公开（公告）日：	2020-08-04
发明（设计）人：	陈志明;毛亮;黄仝宇;汪刚;宋一兵;侯玉清;刘双广	申请（专利权）人：	高新兴科技集团股份有限公司
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06F16/27;G06F16/22;G06F16/2453
代理公司：	广州国鹏知识产权代理事务所(普通合伙) 44511	代理人：	葛红
地址：	510530 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种支持条件检索实时分析数据处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种支持多条件检索和实时分析的大数据处理方法，包括对数据进行多条件检索过程和实时分析过程，其中所述多条件检索过程包括步骤：随机把用户的查询请求发送到任意一检索索引服务器节点，解析查询，生成查询树；启动分布式查询，基于检索索引的存储空间数，把查询请求转为多个子查询，并把每个子查询定位到对应的索引服务器；每个子查询把查询结果进行返回到索引节点；把各个子查询的查询结果进行合并，最终返回给用户。本发明使检索多条件化，且支持动态扩展；简化以及统一客户端调用方式；提高检索效率，以及支持聚合函数、联合查询等。

技术领域

本发明属于数据检索分析领域，尤其涉及一种支持多条件检索和实时分析的大数据处理方法。

背景技术

对大数据量进行检索以及分析，传统的关系型数据库已经不足以支撑。在现有的技术方案中采用非关系型分布式的数据库Hbase作为储存，为了提高检索以及分析效率，主要进行了以下两大方面的设计优化：

在固定的应用场景和硬件配置下，通过调优参数配置，使得集群的资源分配达到最佳，发挥出最高的性能。

针对特定的需求，对表自身进行合理的设计，例如：表预分区、行键、列簇等。其中比较有效的是设计行键，因为根据行键来查询单条记录效率都是在毫秒级。

虽然上述方法能够通性能调优以及对表进行针对性设计，但依然存在很大的局限性：

（1）检索条件单一，就算多个条件设计到行键中，但必须要满足前缀匹配。

（2）当检索不经行键时，会造成全表扫描，严重影响性能。

（3）对于一些类似关系数据库中的聚合功能，需要通过编码实现，增加了开发人员的学习成本。

发明内容

为了克服现有技术存在的不足，本发明提供了一种支持多条件检索和实时分析的大数据处理方法，它能够不影响原始业务表的结构与数据，横向动态扩展索引实现多条件检索，而且可以通过JDBC以标准SQL语法进行操作，简化开发者使用并且支持复杂的数据分析。