[发明专利]一种基于Elasticsearch的Hive二级全文索引技术方法及系统在审
| 申请号: | 202010616559.2 | 申请日: | 2020-07-01 |
| 公开(公告)号: | CN111753045A | 公开(公告)日: | 2020-10-09 |
| 发明(设计)人: | 于伟;周恒;樊文昌 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
| 主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
| 地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 elasticsearch hive 二级 全文 索引 技术 方法 系统 | ||
本发明公开了一种基于Elasticsearch的Hive二级全文索引技术方法及系统,属于数据全文索引技术领域;所述的方法具体步骤包括:S1通过CREATE FULL INDEX对Hive原始数据表创建全文索引表;S2将原始表INSERT、UPDATE、DELETE与ES中的全文索引表同步操作;S3使用全文索引条件查询原始表;S4删除全文索引;S5删除原始表;本二级全文索引方案可达到其发明目的所阐述的效果,可应用于全文索引需求较强的场景,如日志存储系统、个人信息融合系统等;基于事务日志技术确保原始表和索引表的数据强一致性,可使其更加可靠。同时Hive和ES均为高可用系统,使之在整体上高可用;同时这一技术方法也将Hadoop生态和Elastic软件栈进行深度融合,这一是较大突破。
技术领域
本发明公开一种基于Elasticsearch的Hive二级全文索引技术方法及系统,涉及数据全文索引技术领域。
背景技术
Hive on Elasticsearch(Elasticsearch简写为ES)插件是由elastic 公司研发的,实现了hive external storage handler机制的插件。加载该插件后,hive的存储数据源不仅仅是hdfs,也可以是Elasticsearch等外部存储引擎;
通过Hive可以间接对Elasticsearch引擎进行增删查改操作:
1)可以CREATE、DROP TABLE语句可以创建、删除Elasticsearch引擎的表;
2)通过INSERT、UPDATE、DELETE、SELECT语句可对Elasticsearch引擎表进行相应操作;
现有的全文检索基础覆盖需求场景较为狭小,在对大量数据进行索引操作时不易保持数据的一致性,故现发明一种基于Elasticsearch的Hive二级全文索引技术方法及系统以解决上述问题。
发明内容
本发明针对现有技术的问题,提供一种基于Elasticsearch的Hive二级全文索引技术方法及系统,所采用的技术方案为:
一种基于Elasticsearch的Hive二级全文索引技术方法,所述的方法具体步骤包括:
S1通过CREATE FULL INDEX对Hive原始数据表创建全文索引表;
S2将原始表INSERT、UPDATE、DELETE与ES中的全文索引表同步操作;
S3使用全文索引条件查询原始表;
S4删除全文索引;
S5删除原始表。
所述S1通过CREATE FULL INDEX对Hive原始数据表创建全文索引表的具体步骤包括:
S101增加DDL关键字FULL;
S102对CREATE FULL INDEX进行语句扫描、词法分析和语法检查
S103检查通过后根据DDL元数据信息在ES引擎中创建对应的索引表。
所述S2将原始表INSERT、UPDATE、DELETE与ES中的全文索引表同步操作的具体步骤包括:
S201记录本次操作的事务日志;
S202 INSERT、UPDATE、DELETE在原始表上操作,成功向下执行,失败则返回S201;
S203 INSERT、UPDATE、DELETE在索引表上操作,成功执行则提交事务,失败则根据事务日志回滚事务。
所述S3使用全文索引条件查询原始表的具体步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010616559.2/2.html,转载请声明来源钻瓜专利网。





