[发明专利]一种并行分布式大数据架构构建方法及系统有效
申请号: | 202110440139.8 | 申请日: | 2021-04-21 |
公开(公告)号: | CN113190528B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 周生辉;刘园园;王勇;万修全;魏志强 | 申请(专利权)人: | 中国海洋大学;青岛海洋科学与技术国家实验室发展中心 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/22;G06F16/2455;G06F16/27 |
代理公司: | 北京艾格律诗专利代理有限公司 11924 | 代理人: | 王子溟 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 并行 分布式 数据 架构 构建 方法 系统 | ||
本申请公开了一种并行分布式大数据架构构建方法及系统。所述并行分布式大数据架构构建方法包括生产者端的搭建及数据连接器端的搭建,所述生产者端的搭建方法包括:加载指定的序列化策略;完成生产属性配置;对预备发送数据进行avro序列化;对avro序列化后的数据进行内存填充,并形成kafka消息,发送至kafka消息队列中;数据连接器端的搭建方法包括:读取Dataframe,并完成预置的组态配置;加载指定序列化策略并执行反序列化;使用spark微批处理形式进行数据库或数据表的写入。本申请解决了国产超级计算机不能持久化存储海量数据的问题。
技术领域
本发明涉及并行技术与大数据处理技术领域,具体涉及一种并行分布式大数据架构构建方法以及并行分布式大数据架构构建系统。
背景技术
国产超级计算机采用异构众核的体系架构,与大数据生态环境依赖的硬件架构不同,其具有片上计算核心集群化和分布式共享存储相结合的特点,因此,面向国产超级计算机的大数据平台构建存在极大的挑战。
国产超级计算机上难以实现持久化存储,但国产大数据仓储系统包含存储服务器、存储管理服务器、数据中转服务器、用户登录服务器等国产设备,系统通过一台万兆网络交换机实现内部互联,实现10Gbps的全连接数据交换。国产存储服务器包含了大容量的磁盘,实现超大规模的数据存储;国产元数据服务器包含高性能的SSD存储盘,提供高速的元数据访问;国产用户登录服务器为有保密需求的用户提供登录服务;国产数据中转服务器支撑用户数据的导入与导出。
目前,面向国产超算的并行分布式大数据架构的需求主要体现在两个方面:
(1)如何构建高效处理低延时的并行分布式大数据架构。
(2)国产超算具有高性能计算能力,需要将应用程序产生的海量多源异构数据实时共享到其他软件生态环境中。
综上,现有的国产超级计算机具有不能持久化存储海量数据的问题。
发明内容
本发明的目的在于提供一种并行分布式大数据架构构建方法,来克服或至少减轻现有技术的至少一个上述缺陷。
本发明的一个方面,提供一种并行分布式大数据架构构建方法,所述并行分布式大数据架构构建方法包括:
在即将运行的MPI进程中加载指定的序列化策略;
通过kafka生产者MPI进程组的各个进程完成各kafka生产者的生产属性配置;
通过所述kafka生产者MPI进程组的各个进程进行序列化策略的类型转化,对预备发送数据进行avro序列化;
基于缓存的序列化策略元信息对avro序列化后的数据进行内存填充,并形成kafka消息,发送至kafka消息队列中;
所述数据连接器端的搭建方法包括:
通过spark-sql-kafka集成模块以流方式从kafka数据源读取Dataframe,并完成预置的组态配置;
从schema registry端加载指定的kafka数据源topic键、值avro序列化策略,并执行反序列化;
使用spark微批处理形式,将反序列化后Kafak数据流批量写入GreenPlum目标数据库或数据表中。
可选地,所述在即将运行的MPI进程中加载指定的序列化策略包括:
创建kafka生产者MPI进程组和通信域;
选取MPI进程组中的一个MPI进程作为主进程,构建所述主进程与SchemaRegistry端的通信,加载指定的序列化策略;
将所述主进程中的序列化策略广播至Kafka生产者MPI进程组中的其它所有即将运行的MPI进程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学;青岛海洋科学与技术国家实验室发展中心,未经中国海洋大学;青岛海洋科学与技术国家实验室发展中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110440139.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置