[发明专利]数据同步方法、装置、系统、存储介质及处理器有效

专利信息
申请号: 202010181976.9 申请日: 2020-03-16
公开(公告)号: CN111506646B 公开(公告)日: 2023-05-02
发明(设计)人: 梁俊飞 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F16/27 分类号: G06F16/27;G06F16/23;G06F16/22;G06F16/18;G06F16/182
代理公司: 北京博浩百睿知识产权代理有限责任公司 11134 代理人: 赵昀彬
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 同步 方法 装置 系统 存储 介质 处理器
【说明书】:

发明公开了一种数据同步方法、装置、系统、存储介质及处理器。其中,该方法包括:基于业务数据查询请求创建索引同步工作;从第一服务器获取与索引同步工作关联的多个日志记录,其中,第一服务器为分布式文件系统储服务器,多个日志记录的每个日志记录中存储有待同步的日志元数据;将多个日志记录同步至第二服务器,其中,第二服务器为全文检索服务器。本发明解决了分布式文件系统服务器(即HDFS)与全文检索服务器(即Solr或ES)的索引同步效率低的技术问题。

技术领域

本发明涉及计算机领域,具体而言,涉及一种数据同步方法、装置、系统、存储介质及处理器。

背景技术

分布式存储系统HBase是一个非关系型的数据库NoSQL系统,支持按行键Rowkey去查询数据,为了对同一份数据做全文检索查询,会把HBase数据同步到全文检索服务器Solr、全文检索服务器ES(即ElasticSearch)等外部系统。

需要说明的是,全文检索服务器(如Solr或ES)系统的成本高于分布式存储系统HBase的成本,因此,为了降低成本开销,可以将分布式存储系统HBase与全文检索服务器(如Solr或ES)结合,来较少对全文检索服务器(如Solr或ES)的使用,从而可以把全量数据存在HBase,把需要检索的数据同步到全文搜索引擎(即Sorl或ES)。

为了保持两个系统(如HBase与Solr,或HBase与ES)的时间数据同步,可以基于Log进行实时同步数据,在开源的索引器HBase-indexer中基于复制HBase Replication来同步数据。但是,这种方式存在维护麻烦、Log重复读取等问题,为规避这些问题提出此方案。

目前,开源HBase-indexer的实现如下:建立Solr索引后,则会创建一个对等节点peer,然后开始同步数据,并且各对等节点peer之间的同步通道是相互独立的。

但是,基于HBase-indexer的同步方式存在如下缺点:

1.每一个peer同步数据的时候都需要把所有的Log读一遍,建设有N个索引,则Log的读流量会放大N倍,对网络、磁盘的压力都比较大。

2.同步效率比较低,Replication从WAL读出Log,反序列化成KV,然后再序列化成二进制数据发送到网络,随后通过网络发送indexer,indexer方序列化出KV才能写SOLR;RS通过网络把KV发送给索引器Indexer,导致了多一次KV的反序列化和序列化。

3.索引同步链路和HBase强耦合,一旦HBase有bug或者Replication有问题会相互影响。

需要说明的是,分布式存储系统(即HBase)的数据一般都存储在分布式文件系统服务器(即HDFS)中,因此,将分布式存储系统(即HBase)与全文搜索引擎(即Sorl或ES)的数据同步就相当于对分布式文件系统服务器(即HDFS)与全文搜索引擎(即Sorl或ES)的数据同步。

针对上述分布式文件系统服务器(即HDFS)与全文检索服务器(即Solr或ES)的索引同步效率低的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据同步方法、装置、系统、存储介质及处理器,以至少解决分布式文件系统服务器(即HDFS)与全文检索服务器(即Solr或ES)的索引同步效率低的技术问题。

根据本发明实施例的一个方面,提供了一种数据同步方法,包括:基于业务数据查询请求创建索引同步工作;从第一服务器获取与所述索引同步工作关联的多个日志记录,其中,所述第一服务器为分布式文件系统服务器,所述多个日志记录的每个日志记录中存储有待同步的日志元数据;将所述多个日志记录同步至第二服务器,其中,所述第二服务器为全文检索服务器。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010181976.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top