[发明专利]一种支持多条件检索和实时分析的大数据处理方法有效
申请号: | 201710258652.9 | 申请日: | 2017-04-19 |
公开(公告)号: | CN107122437B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 陈志明;毛亮;黄仝宇;汪刚;宋一兵;侯玉清;刘双广 | 申请(专利权)人: | 高新兴科技集团股份有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/27;G06F16/22;G06F16/2453 |
代理公司: | 广州国鹏知识产权代理事务所(普通合伙) 44511 | 代理人: | 葛红 |
地址: | 510530 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 条件 检索 实时 分析 数据处理 方法 | ||
本发明公开了一种支持多条件检索和实时分析的大数据处理方法,包括对数据进行多条件检索过程和实时分析过程,其中所述多条件检索过程包括步骤:随机把用户的查询请求发送到任意一检索索引服务器节点,解析查询,生成查询树;启动分布式查询,基于检索索引的存储空间数,把查询请求转为多个子查询,并把每个子查询定位到对应的索引服务器;每个子查询把查询结果进行返回到索引节点;把各个子查询的查询结果进行合并,最终返回给用户。本发明使检索多条件化,且支持动态扩展;简化以及统一客户端调用方式;提高检索效率,以及支持聚合函数、联合查询等。
技术领域
本发明属于数据检索分析领域,尤其涉及一种支持多条件检索和实时分析的大数据处理方法。
背景技术
对大数据量进行检索以及分析,传统的关系型数据库已经不足以支撑。在现有的技术方案中采用非关系型分布式的数据库Hbase作为储存,为了提高检索以及分析效率,主要进行了以下两大方面的设计优化:
在固定的应用场景和硬件配置下,通过调优参数配置,使得集群的资源分配达到最佳,发挥出最高的性能。
针对特定的需求,对表自身进行合理的设计,例如:表预分区、行键、列簇等。其中比较有效的是设计行键,因为根据行键来查询单条记录效率都是在毫秒级。
虽然上述方法能够通性能调优以及对表进行针对性设计,但依然存在很大的局限性:
(1)检索条件单一,就算多个条件设计到行键中,但必须要满足前缀匹配。
(2)当检索不经行键时,会造成全表扫描,严重影响性能。
(3)对于一些类似关系数据库中的聚合功能,需要通过编码实现,增加了开发人员的学习成本。
发明内容
为了克服现有技术存在的不足,本发明提供了一种支持多条件检索和实时分析的大数据处理方法,它能够不影响原始业务表的结构与数据,横向动态扩展索引实现多条件检索,而且可以通过JDBC以标准SQL语法进行操作,简化开发者使用并且支持复杂的数据分析。
本发明采用的技术方案如下:
一种支持多条件检索和实时分析的大数据处理方法,包括对数据进行多条件检索过程和实时分析过程,其中所述多条件检索过程包括步骤如下:
S11.随机把用户的查询请求发送到任意一检索索引服务器节点,解析查询,生成查询树;
S12.启动分布式查询,基于检索索引的存储空间数,把查询请求转为多个子查询,并把每个子查询定位到对应的索引服务器;
S13.每个子查询把查询结果进行返回到S1步骤的索引节点;
S14.把各个子查询的查询结果进行合并,最终返回给用户。
进一步地,对于步骤S11中涉及的检索索引是根据查询条件生成,其步骤包括:
S21.基于数据库Hbase实现了WAL机制以及开启了复制功能 ,利用中间件监听所有操作并获得对应的预写日志;
S22.利用灵活的自定义的特定于应用的规则来从S21中获取到的预写日志进行提取、转换和加载需要进行检索索引的数据;
S23.通过哈稀算法对检索索引的唯一标识进行计算,从而获得索引所属的储存索引空间,最后把检索索引数据持久化到对应的索引空间中。
进一步地,所述实时分析过程步骤包括:
S31.通过语法分析器对SQL字符串进行解析生成可执行的Statement实例,然后根据SQL的特征(关联、嵌套、去重等)来生成查询计划;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于高新兴科技集团股份有限公司,未经高新兴科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710258652.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:大数据统计分析系统
- 下一篇:一种司法案件检索方法及系统