[发明专利]一种非结构化数据分布式存储方法及装置在审
申请号: | 202210021513.5 | 申请日: | 2022-01-10 |
公开(公告)号: | CN114356878A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 薛昊 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/13;G06F16/172;G06F16/17;G06F11/14 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张静 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结构 数据 分布式 存储 方法 装置 | ||
本发明提供了一种非结构化数据分布式存储方法及装置,可应用于分布式领域或金融领域,使用具有高扩展、实时存储以及检索功能的ElasticSearch存储非结构化数据的元数据信息,用来替代原来MySQL存储元数据的功能。使用高可靠、高性能、可伸缩的分布式存储系统HBASE MOB替代原来的集中式存储来管理非结构化数据,通过建立ElasticSearch索引与Hbase Mob行键的映射关系,实现对非结构化数据的高效分布式存储,便于后续实现对非结构化数据的高效检索、查看、修改、下载等功能。本发明通过ElasticSearch+HBASE MOB的存储方法,可以有效的解决当前存在的检索速度慢、存储效率低、扩容受限制、备份不容易等问题,提高非结构化数据存储的安全性、稳定性以及高效性。
技术领域
本发明涉及计算机技术领域,更具体的,涉及一种非结构化数据分布式存储方法及装置。
背景技术
随着业务的快速发展,系统中的非结构化数据呈现出海量增长的趋势,并且在这些非结构化数据中以中小型文档、图片、压缩包等文件居多。目前对于非结构化数据的存储方法主要还是:采用MySQL等关系型数据库存储文件的元数据信息,采用集中式来存储原始文件,之后通过建立mysql与集中式存储的映射关系来实现文件的检索、查看、修改以及下载等功能。
但是,随着非结构化数据的不断增多,此种方法弊端逐渐显现出来,在数据量大的场景下该种存储方法存在检索效率、存储效率和存储性能较低等缺点,并且采用集中式方式存储文件会出现单点故障不易解决,容量空间扩容较难,数据备份机制不完善等问题,影响数据的安全性、稳定性以及高效性。
发明内容
有鉴于此,本发明提供了一种非结构化数据分布式存储方法及装置,实现对非结构化数据的高效分布式存储。
为了实现上述发明目的,本发明提供的具体技术方案如下:
一种非结构化数据分布式存储方法,包括:
提取待存储非结构化数据的元数据信息;
将所述待存储非结构化数据的元数据信息存储在ElasticSearch集群中,并生成所述待存储非结构化数据的元数据信息的ElasticSearch索引;
将所述待存储非结构化数据存储在HBASE MOB集群中,并生成所述待存储非结构化数据的行键;
建立所述待存储非结构化数据的元数据信息的ElasticSearch索引与行键之间的映射关系。
可选的,所述提取待存储非结构化数据的元数据信息,包括:
提取所述待存储非结构化数据的特征信息;
利用elasticsearch-analysis-ik对需要分词的特征信息进行分词;
将不需要分词的特征信息和分词后得到的特征信息确定为所述待存储非结构化数据的元数据信息。
可选的,将所述待存储非结构化数据的元数据信息存储在ElasticSearch集群中,包括:
根据预设设定的分类规则,将所述待存储非结构化数据的元数据信息进行分类;
将分类完成之后的元数据信息分别存储到ElasticSearch集群中对应的元数据存储区。
可选的,将所述待存储非结构化数据存储在HBASE MOB集群中,并生成所述待存储非结构化数据的行键,包括:
将所述待存储非结构化数据存储在HBASE MOB集群中的写区,并生成所述待存储非结构化数据在所述写区的行键;
将所述写区存储的所述待存储非结构化数据同步存储到HBASE MOB集群中的读区,并生成所述待存储非结构化数据在所述读区的行键。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210021513.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于使疼痛缓解的设备
- 下一篇:一种焦炉荒煤气余热回收装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置