[发明专利]基于海量数据的文件生成方法及系统在审
申请号: | 201811250926.0 | 申请日: | 2018-10-25 |
公开(公告)号: | CN109309726A | 公开(公告)日: | 2019-02-05 |
发明(设计)人: | 安栋;王斌;宋先优;郭锦玉 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F9/50 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 官建红 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算节点 数据块 管理节点 海量数据 任务类型 文件生成 客户端 集群 读取 数据处理结果 数据块分配 并行处理 存储路径 负载均衡 请求消息 任务能力 生成数据 生成文件 数据处理 数据库 发送 携带 分配 | ||
本发明提供了一种基于海量数据的文件生成方法及系统,包括:客户端向第一管理节点发送第一请求消息,携带N个数据块的存储路径和每个数据块所对应的任务类型,包括CPU密集型任务和I/O密集型任务;第一管理节点依次获取每个计算节点处理两类任务的处理能力,根据N个数据块的任务类型,向N个计算节点分别分配一个子任务,计算节点读取该数据块中的数据并对数据进行处理;客户端根据N个计算节点的数据处理结果,生成数据所对应的文件。通过spark集群中的多个计算节点对海量数据并行处理生成文件,且spark集群中的管理节点根据数据库所对应的任务类型将该数据块分配给处理该类型任务能力强的计算节点,在达到负载均衡的基础上提高了数据处理的速度。
技术领域
本发明属于计算机技术领域,尤其涉及一种基于海量数据的文件生成方法及系统。
背景技术
随着计算机技术和互联网技术的迅猛发展,网络普及率和互联网用户的规模也在逐年攀升,用户规模不断攀升与数据处理量迅速增长的双重刺激为互联网应用带来了新的挑战。
例如,基金系统之间的数据交互基本都以文本文件形式交互,随着用户数量的增长,目前一天需要生成的数据文件高达30多G,普通方法生成文件需要数小时,严重影响业务的效率。并且,随着数据量越来越大,对系统各项性能的也越来越高。因此,面对海量数据,如何提高文件的生成速度是现在所面临的挑战。
发明内容
有鉴于此,本发明实施例提供了一种基于海量数据的文件生成方法及系统,以解决现有技术中基于海量数据的文件生成速度慢的问题。
本发明实施例的第一方面提供了一种基于海量数据的文件生成方法,该方法应用于计算引擎spark集群,spark集群中包括第一管理节点和多个计算节点,包括:
客户端向所述第一管理节点发送第一请求消息,所述第一请求消息用于请求将待处理的数据进行处理生成文件,所述数据由N个数据块组成,所述第一请求消息中携带所述N个数据块中每个数据块的存储路径信息和每个数据块所对应的任务类型,所述任务类型包括中央处理器CPU密集型任务和输入输出I/O密集型任务,N为大于等于2的正整数;
所述第一管理节点依次获取每个计算节点处理CPU密集型任务的处理能力和处理I/O密集型任务的处理能力;
所述第一管理节点根据每个计算节点处理CPU密集型任务的处理能力和处理I/O密集型任务的处理能力,以及所述N个数据块所对应的任务类型,向N个计算节点分别分配一个子任务,每个子任务用于对一个数据块进行处理,每个子任务携带有一个数据块的路径信息,以使得所述计算节点根据接收到的子任务中的数据块的路径信息读取该数据块中的数据并对数据进行处理;
所述客户端根据所述N个计算节点的数据处理结果,生成所述数据所对应的文件。
本发明实施例的第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
客户端向所述第一管理节点发送第一请求消息,所述第一请求消息用于请求将待处理的数据进行处理生成文件,所述数据由N个数据块组成,所述第一请求消息中携带所述N个数据块中每个数据块的存储路径信息和每个数据块所对应的任务类型,所述任务类型包括中央处理器CPU密集型任务和输入输出I/O密集型任务,N为大于等于2的正整数;
所述第一管理节点依次获取每个计算节点处理CPU密集型任务的处理能力和处理I/O密集型任务的处理能力;
所述第一管理节点根据每个计算节点处理CPU密集型任务的处理能力和处理I/O密集型任务的处理能力,以及所述N个数据块所对应的任务类型,向N个计算节点分别分配一个子任务,每个子任务用于对一个数据块进行处理,每个子任务携带有一个数据块的路径信息,以使得所述计算节点根据接收到的子任务中的数据块的路径信息读取该数据块中的数据并对数据进行处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811250926.0/2.html,转载请声明来源钻瓜专利网。