[发明专利]数据存储及数据搜索方法和装置在审
| 申请号: | 201911203294.7 | 申请日: | 2019-11-29 |
| 公开(公告)号: | CN110888839A | 公开(公告)日: | 2020-03-17 |
| 发明(设计)人: | 林鹏铸;许光锋;郑汉军;陈贵民;郑乐乐;罗雅英;杨心恩 | 申请(专利权)人: | 厦门安胜网络科技有限公司 |
| 主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/14;G06F16/172;G06F16/182 |
| 代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 陈远洋 |
| 地址: | 361008 福建省厦门市软*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据 存储 搜索 方法 装置 | ||
本发明公开了一种数据存储方法,包括以下步骤:获取数据表中用于搜索的关键字段,将关键字段存储在ElasticSearch中,并将关键字段进行合并成字符串,计算出字符串的校验值,将校验值作为ElasticSearch的”_id”字段进行存储;将数据表对应的明细数据存放在HBase中,并将校验值作为HBase的rowkey;以及将文件以二进制流的方式存储在HBase中,或将文件存储在HDFS中并将文件的路径存储在HBase中,并将存储在HDFS中的文件的字段名加上标记,并记录在数据表中。本申请的搜索方法可以提供实时性、可扩展性和可靠性等方面均有较好的性能,并可以满足大数据量的搜索性能要求。
技术领域
本发明涉及大数据领域,具体涉及一种数据存储及数据搜索方法和装置。
背景技术
在摩尔定律的结论下,每隔18-24个月产品的性能会提升一倍。随着产品硬件性能的提升,新的软件技术也会伴着高性能硬件而生,从而产生新的大量数据。在现代新技术的高速发展下,随着互联网技术、尤其是大数据技术的快速发展,不仅是互联网公司的网络信息量呈爆炸式的增长,连传统行业(如金融行业、医疗行业)也享受到新技术的红利,数据量也呈几何级增长。
面对这些爆炸性增长的数据,可以通过存储扩容或扩充服务器来缓解存储压力,然而数据的查询压力问题不容小觑。传统的关系型数据如MySQL、Oracle等已经不能满足需求,单表数据量达到过亿时,查询性能骤降,常见的关系型数据库优化方法如创建索引、分库、分表在面对超大数据量的表时,一方面性能问题依旧,另一方面分库或分表的方式将会使查询变得繁琐。
得益于Google BigTable论文的发表,随之而生并快速发展的大数据技术目前已经能很好地满足大数据量(PB级甚至是EB级数据)的存储需求,然而对于超大数据的快速搜索仍是个较严峻的挑战。
在现有技术中,面对海量数据的搜索或存储一般采用HBase,例如Phoenix是一个开源的HBase查询引擎,其通过将SQL查询转换成为一个或多个HBase Scan来获取数据,直接使用HBase API,利用Coprocessor和Filter进行数据搜索,试图规避MapReduce,从而减小时延。然而由于Coprocessor和Filter的自身能力受限,完全抛弃MapReduce使其在面对复杂查询和大数据量的搜索时性能受限。
为了解决HBase的海量数据复杂查询问题,另一种解决思路就是对HBase中的每列数据建立索引。目前支持海量数据分布式索引的框架主要有两个,分别是Solr和Elasticsearch。Solr是Apache Lucene项目的开源企业搜索平台,支持全文检索、命中提示、分面搜索、动态聚类等。Elasticsearch是一个实时的分布式搜索和分析引擎,可以用于全文搜索、结构化搜索及分析,支持Lucene的近实时检索,目前被维基百科、GitHub、StackOverflow、英国卫报等组织和企业广泛使用。ElasticSearch在针对大数据量的查询时由于搜索字段针对全文没有针对性导致其查询性能受限。
有鉴于此,提出一种新的数据存储及数据搜索方法和装置是亟待解决的问题之一。
发明内容
针对上述提到的面对大数据查询等问题。本申请的实施例的目的在于提出了,来解决以上背景技术部分提到的技术问题。
第一方面,本申请实施例提出了一种数据存储方法,包括以下步骤:
S1:获取数据表中用于搜索的关键字段,将关键字段存储在ElasticSearch中,并将关键字段进行合并成字符串,计算出字符串的校验值,将校验值作为ElasticSearch的”_id”字段进行存储;
S2:将数据表对应的明细数据存放在HBase中,并将校验值作为HBase的rowkey;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门安胜网络科技有限公司,未经厦门安胜网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911203294.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





