[发明专利]一种hive中大小表关联的优化方法有效
申请号: | 201710032231.4 | 申请日: | 2017-01-16 |
公开(公告)号: | CN108319604B | 公开(公告)日: | 2021-10-19 |
发明(设计)人: | 马东;周帅锋;郑伟;鲁光明;马全辉;卞璐璐;穆宁;王栋平 | 申请(专利权)人: | 南京烽火天地通信科技有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/27 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 康潇 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种hive中大小表关联的优化方法,属于大数据处理技术领域,解决了针对Hive大小表关联时大表存在索引的场景下效率低下的问题;本发明利用大表的索引特性,降低传输和分析的数据量,进而提升大小表关联分析的效率。 | ||
搜索关键词: | 一种 hive 大小 关联 优化 方法 | ||
【主权项】:
1.一种hive中大小表关联的优化方法,其特征在于:包括如下步骤:步骤1:建立由多个服务器组成的服务器集群,在服务器集群的基础上建立Hadoop框架结构;步骤2:在Hadoop框架结构上搭建hive数据仓库工具,Hive数据仓库工具对外提供HQL接口,Hive数据仓库工具将存储在HDFS或其他存储介质上的大规模数据集映射为数据表,所述数据表根据数据量的大小分为大数据表和小数据表;步骤3:Hive客户端通过Hive数据仓库工具底层借助Mapreduce完成对数据表的分析;步骤4:以MapReduce计算框架作为hive的执行引擎,hive客户端执行多表关联任务触发MapReduce job任务执行实际的关联任务,所述MapReducejob任务包括数个Map Task,在Map Task中对大数据表和小数据表根据关联字段进行关联分析;步骤5:在执行MapReduce job任务之前,首先判断大小数据表的数据量是否满足要求:是,则执行步骤6;否,则执行步骤10;步骤6:判断大数据表是否含有索引字段:是,则执行步骤7;否,则执行步骤10;步骤7:判断大数据表关联字段是否是索引字段,是,则执行步骤8;否,则执行步骤10;步骤8:MapReduce根据小数据表的数据量和关联字段的特点对小数据表的数据进行分区,生成数个小数据表分区,每个小数据表分区均由一个Map Task处理;步骤9:在每个Map Task阶段,MapReduce遍历小数据表分区的数据,构造索引条件查询大数据表的数据,然后生成大小表关联分析结果,执行步骤12;步骤10:MapReduce根据大数据表的数据量将大数据表的数据进行切分,生成数个大数据表分区,每个大数据表分区由一个Map Task处理;步骤11:在每个Map Task阶段中,MapReduce对相应的大数据表分区的数据进行扫描,并与小数据表的数据做等值关联,生成大小表关联分析结果;步骤12:MapReduce将大小表关联分析结果最终输出至Hive客户端或HDFS中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火天地通信科技有限公司,未经南京烽火天地通信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710032231.4/,转载请声明来源钻瓜专利网。
- 上一篇:对象推荐方法和装置
- 下一篇:医学检查数据的结构化处理方法及系统