[发明专利]基于海量数据的文件生成方法及系统在审
申请号: | 201811250926.0 | 申请日: | 2018-10-25 |
公开(公告)号: | CN109309726A | 公开(公告)日: | 2019-02-05 |
发明(设计)人: | 安栋;王斌;宋先优;郭锦玉 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F9/50 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 官建红 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算节点 数据块 管理节点 海量数据 任务类型 文件生成 客户端 集群 读取 数据处理结果 数据块分配 并行处理 存储路径 负载均衡 请求消息 任务能力 生成数据 生成文件 数据处理 数据库 发送 携带 分配 | ||
1.一种基于海量数据的文件生成方法,其特征在于,该方法应用于计算引擎spark集群,spark集群中包括第一管理节点和多个计算节点,该方法包括:
客户端向所述第一管理节点发送第一请求消息,所述第一请求消息用于请求将待处理的数据进行处理生成文件,所述数据由N个数据块组成,所述第一请求消息中携带所述N个数据块中每个数据块的存储路径信息和每个数据块所对应的任务类型,所述任务类型包括中央处理器CPU密集型任务和输入输出I/O密集型任务,N为大于等于2的正整数;
所述第一管理节点依次获取每个计算节点处理CPU密集型任务的处理能力和处理I/O密集型任务的处理能力;
所述第一管理节点根据每个计算节点处理CPU密集型任务的处理能力和处理I/O密集型任务的处理能力,以及所述N个数据块所对应的任务类型,向N个计算节点分别分配一个子任务,每个子任务用于对一个数据块进行处理,每个子任务携带有一个数据块的路径信息,以使得所述计算节点根据接收到的子任务中的数据块的路径信息读取该数据块中的数据并对数据进行处理;
所述客户端根据所述N个计算节点的数据处理结果,生成所述数据所对应的文件。
2.根据权利要求1所述的文件生成方法,其特征在于,该方法还应用于分布式文件系统HDFS,HDFS中包含第二管理节点和多个存储节点,在所述客户端向所述第一管理节点发送第一请求消息之前,该方法还包括:
所述客户端向第二管理节点发送第二请求消息,用于请求写入待处理的数据,所述第二请求消息携带有所述N个数据块中每个数据块的大小信息;
所述第二管理节点根据任一数据块的大小,为所述数据块分配一个存储节点,并向所述客户端发送响应消息,所述响应消息中携带每个数据块所对应的存储节点的路径信息;
所述客户端根据所述响应消息中所携带的路径信息,将所述N个数据块存储至HDFS的存储节点中。
3.根据权利要求1所述的文件生成方法,其特征在于,所述第一管理节点依次获取每个计算节点处理CPU密集型任务的处理能力和处理I/O密集型任务的处理能力包括:
所述第一管理节点依次读取每个计算节点的运行日志;
针对任一计算节点,所述第一管理节点根据所述计算节点的运行日志,获取所述计算节点处理单位数据量的CPU密集型任务的平均时间T1和处理单位数据量的I/O密集型任务的平均时间T2;
所述第一管理节点根据所述计算节点所对应的T1值及所述spark集群中所有计算节点处理单位数据量的CPU密集型任务的平均时间T1’,获取所述计算节点处理CPU密集型任务的处理能力;
所述第一管理节点根据所述计算节点所对应的T2值和所述spark集群中所有计算节点处理单位数据量的I/O密集型任务的平均时间T2’,获取所述计算节点处理I/O密集型任务的处理能力。
4.根据权利要求1所述的文件生成方法,其特征在于,所述第一管理节点依次获取每个计算节点处理CPU密集型任务的处理能力和处理I/O密集型任务的处理能力包括:
在所述spark集群启动时,针对任一计算节点,所述第一管理节点指示所述计算节点分别处理预设数据量的CPU密集型任务和预设数据量的I/O密集型任务;
所述第一管理节点获取所述计算节点处理所述预设数据量的CPU密集型任务的时间T3和处理所述预设数据量的I/O密集型任务的时间T4;
所述第一管理节点根据所述计算节点所对应的T3值及所述spark集群中所有计算节点处理所述预设数据量的CPU密集型任务的平均时间T3’,获取所述计算节点处理CPU密集型任务的处理能力;
所述第一管理节点根据所述计算节点所对应的T4值及所述spark集群中所有计算节点处理所述预设数量的I/O密集型任务的平均时间T4’,获取所述计算节点处理I/O密集型任务的处理能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811250926.0/1.html,转载请声明来源钻瓜专利网。