[发明专利]一种并行分布式大数据架构构建方法及系统有效

专利信息
申请号: 202110440139.8 申请日: 2021-04-21
公开(公告)号: CN113190528B 公开(公告)日: 2022-12-06
发明(设计)人: 周生辉;刘园园;王勇;万修全;魏志强 申请(专利权)人: 中国海洋大学;青岛海洋科学与技术国家实验室发展中心
主分类号: G06F16/21 分类号: G06F16/21;G06F16/22;G06F16/2455;G06F16/27
代理公司: 北京艾格律诗专利代理有限公司 11924 代理人: 王子溟
地址: 266100 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 并行 分布式 数据 架构 构建 方法 系统
【说明书】:

本申请公开了一种并行分布式大数据架构构建方法及系统。所述并行分布式大数据架构构建方法包括生产者端的搭建及数据连接器端的搭建,所述生产者端的搭建方法包括:加载指定的序列化策略;完成生产属性配置;对预备发送数据进行avro序列化;对avro序列化后的数据进行内存填充,并形成kafka消息,发送至kafka消息队列中;数据连接器端的搭建方法包括:读取Dataframe,并完成预置的组态配置;加载指定序列化策略并执行反序列化;使用spark微批处理形式进行数据库或数据表的写入。本申请解决了国产超级计算机不能持久化存储海量数据的问题。

技术领域

发明涉及并行技术与大数据处理技术领域,具体涉及一种并行分布式大数据架构构建方法以及并行分布式大数据架构构建系统。

背景技术

国产超级计算机采用异构众核的体系架构,与大数据生态环境依赖的硬件架构不同,其具有片上计算核心集群化和分布式共享存储相结合的特点,因此,面向国产超级计算机的大数据平台构建存在极大的挑战。

国产超级计算机上难以实现持久化存储,但国产大数据仓储系统包含存储服务器、存储管理服务器、数据中转服务器、用户登录服务器等国产设备,系统通过一台万兆网络交换机实现内部互联,实现10Gbps的全连接数据交换。国产存储服务器包含了大容量的磁盘,实现超大规模的数据存储;国产元数据服务器包含高性能的SSD存储盘,提供高速的元数据访问;国产用户登录服务器为有保密需求的用户提供登录服务;国产数据中转服务器支撑用户数据的导入与导出。

目前,面向国产超算的并行分布式大数据架构的需求主要体现在两个方面:

(1)如何构建高效处理低延时的并行分布式大数据架构。

(2)国产超算具有高性能计算能力,需要将应用程序产生的海量多源异构数据实时共享到其他软件生态环境中。

综上,现有的国产超级计算机具有不能持久化存储海量数据的问题。

发明内容

本发明的目的在于提供一种并行分布式大数据架构构建方法,来克服或至少减轻现有技术的至少一个上述缺陷。

本发明的一个方面,提供一种并行分布式大数据架构构建方法,所述并行分布式大数据架构构建方法包括:

在即将运行的MPI进程中加载指定的序列化策略;

通过kafka生产者MPI进程组的各个进程完成各kafka生产者的生产属性配置;

通过所述kafka生产者MPI进程组的各个进程进行序列化策略的类型转化,对预备发送数据进行avro序列化;

基于缓存的序列化策略元信息对avro序列化后的数据进行内存填充,并形成kafka消息,发送至kafka消息队列中;

所述数据连接器端的搭建方法包括:

通过spark-sql-kafka集成模块以流方式从kafka数据源读取Dataframe,并完成预置的组态配置;

从schema registry端加载指定的kafka数据源topic键、值avro序列化策略,并执行反序列化;

使用spark微批处理形式,将反序列化后Kafak数据流批量写入GreenPlum目标数据库或数据表中。

可选地,所述在即将运行的MPI进程中加载指定的序列化策略包括:

创建kafka生产者MPI进程组和通信域;

选取MPI进程组中的一个MPI进程作为主进程,构建所述主进程与SchemaRegistry端的通信,加载指定的序列化策略;

将所述主进程中的序列化策略广播至Kafka生产者MPI进程组中的其它所有即将运行的MPI进程。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学;青岛海洋科学与技术国家实验室发展中心,未经中国海洋大学;青岛海洋科学与技术国家实验室发展中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110440139.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top