[发明专利]数据同步方法、装置、系统、存储介质及处理器有效
申请号: | 202010181976.9 | 申请日: | 2020-03-16 |
公开(公告)号: | CN111506646B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 梁俊飞 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/23;G06F16/22;G06F16/18;G06F16/182 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 赵昀彬 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 同步 方法 装置 系统 存储 介质 处理器 | ||
本发明公开了一种数据同步方法、装置、系统、存储介质及处理器。其中,该方法包括:基于业务数据查询请求创建索引同步工作;从第一服务器获取与索引同步工作关联的多个日志记录,其中,第一服务器为分布式文件系统储服务器,多个日志记录的每个日志记录中存储有待同步的日志元数据;将多个日志记录同步至第二服务器,其中,第二服务器为全文检索服务器。本发明解决了分布式文件系统服务器(即HDFS)与全文检索服务器(即Solr或ES)的索引同步效率低的技术问题。
技术领域
本发明涉及计算机领域,具体而言,涉及一种数据同步方法、装置、系统、存储介质及处理器。
背景技术
分布式存储系统HBase是一个非关系型的数据库NoSQL系统,支持按行键Rowkey去查询数据,为了对同一份数据做全文检索查询,会把HBase数据同步到全文检索服务器Solr、全文检索服务器ES(即ElasticSearch)等外部系统。
需要说明的是,全文检索服务器(如Solr或ES)系统的成本高于分布式存储系统HBase的成本,因此,为了降低成本开销,可以将分布式存储系统HBase与全文检索服务器(如Solr或ES)结合,来较少对全文检索服务器(如Solr或ES)的使用,从而可以把全量数据存在HBase,把需要检索的数据同步到全文搜索引擎(即Sorl或ES)。
为了保持两个系统(如HBase与Solr,或HBase与ES)的时间数据同步,可以基于Log进行实时同步数据,在开源的索引器HBase-indexer中基于复制HBase Replication来同步数据。但是,这种方式存在维护麻烦、Log重复读取等问题,为规避这些问题提出此方案。
目前,开源HBase-indexer的实现如下:建立Solr索引后,则会创建一个对等节点peer,然后开始同步数据,并且各对等节点peer之间的同步通道是相互独立的。
但是,基于HBase-indexer的同步方式存在如下缺点:
1.每一个peer同步数据的时候都需要把所有的Log读一遍,建设有N个索引,则Log的读流量会放大N倍,对网络、磁盘的压力都比较大。
2.同步效率比较低,Replication从WAL读出Log,反序列化成KV,然后再序列化成二进制数据发送到网络,随后通过网络发送indexer,indexer方序列化出KV才能写SOLR;RS通过网络把KV发送给索引器Indexer,导致了多一次KV的反序列化和序列化。
3.索引同步链路和HBase强耦合,一旦HBase有bug或者Replication有问题会相互影响。
需要说明的是,分布式存储系统(即HBase)的数据一般都存储在分布式文件系统服务器(即HDFS)中,因此,将分布式存储系统(即HBase)与全文搜索引擎(即Sorl或ES)的数据同步就相当于对分布式文件系统服务器(即HDFS)与全文搜索引擎(即Sorl或ES)的数据同步。
针对上述分布式文件系统服务器(即HDFS)与全文检索服务器(即Solr或ES)的索引同步效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据同步方法、装置、系统、存储介质及处理器,以至少解决分布式文件系统服务器(即HDFS)与全文检索服务器(即Solr或ES)的索引同步效率低的技术问题。
根据本发明实施例的一个方面,提供了一种数据同步方法,包括:基于业务数据查询请求创建索引同步工作;从第一服务器获取与所述索引同步工作关联的多个日志记录,其中,所述第一服务器为分布式文件系统服务器,所述多个日志记录的每个日志记录中存储有待同步的日志元数据;将所述多个日志记录同步至第二服务器,其中,所述第二服务器为全文检索服务器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010181976.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:EVPN报文处理方法、设备及系统
- 下一篇:一种配电柜、线材的监测方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置