[发明专利]实时数据同步方法以及装置、服务器在审
申请号: | 201910956548.6 | 申请日: | 2019-09-29 |
公开(公告)号: | CN110704400A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 梁涌;吴峰;郭伟 | 申请(专利权)人: | 上海易点时空网络有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/22;G06F16/27 |
代理公司: | 11541 北京卓唐知识产权代理有限公司 | 代理人: | 唐海力 |
地址: | 200125 上海市浦东*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预设 时间周期 实时数据 数据库 申请 迁移 分布式文件系统 日志收集系统 数据文件内容 数据文件转移 查询效率 节省资源 数据结构 文件数据 消息队列 正常业务 影响线 创建 队列 服务器 带宽 写入 进程 | ||
1.一种实时数据同步方法,其特征在于,包括:
在HIVE数据库中创建预设数据表;
启动至少一个进程,从消息队列中批量读取数据;
创建时间周期目录,根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中;
定时将上一个时间周期的数据文件转移到新的指定的迁移目录下;
通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下。
2.根据权利要求1所述的实时数据同步方法,其特征在于,还包括:
通过设置进程数量并记录当前已开启进程数;
当每新开一个进程时判断是否超出最大进程数;
如果判断没有超出最大进程数,则可开启新进程。
3.根据权利要求1所述的实时数据同步方法,其特征在于,创建时间周期目录包括:
按照数据同步周期,创建当天、当前小时的文件夹;
根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中包括:
根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式将数据文件写入到相应文件夹下的文件中。
4.根据权利要求1所述的实时数据同步方法,其特征在于,启动至少一个进程,从消息队列中批量读取数据包括:
使用多进程读取方式,从消息队列中对每个任务进程读取部分数据,并进行并发处理。
5.根据权利要求1所述的实时数据同步方法,其特征在于,创建时间周期目录,根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中还包括:
按照当前时间周期目录对读取到的数据进行过滤或者编排处理之后,对数据文件进行压缩之后,再以分布式文件系统格式写入到数据文件中。
6.一种实时数据同步装置,其特征在于,包括:
创建模块,用于在HIVE数据库中创建预设数据表;
启动模块,用于启动至少一个进程,从消息队列中批量读取数据;
写入模块,用于创建时间周期目录,根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中;
转移模块,用于定时将上一个时间周期的数据文件转移到新的指定的迁移目录下;
同步模块,用于通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下。
7.根据权利要求6所述的实时数据同步装置,其特征在于,还包括:判断模块,用于
通过设置进程数量并记录当前已开启进程数;
当每新开一个进程时判断是否超出最大进程数;
如果判断没有超出最大进程数,则可开启新进程。
8.根据权利要求6所述的实时数据同步装置,其特征在于,所述写入模块,用于
按照数据同步周期,创建当天、当前小时的文件夹;
根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式将数据文件写入到相应文件夹下的文件中。
9.根据权利要求6所述的实时数据同步装置,其特征在于,所述启动模块,用于
使用多进程读取方式,从消息队列中对每个任务进程读取部分数据,并进行并发处理。
10.一种服务器,其特征在于,包括:权利要求6至9任一项所述的实时数据同步装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海易点时空网络有限公司,未经上海易点时空网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910956548.6/1.html,转载请声明来源钻瓜专利网。