[发明专利]一种文本文件并行上传方法及装置有效
| 申请号: | 201510917625.9 | 申请日: | 2015-12-10 | 
| 公开(公告)号: | CN105610899B | 公开(公告)日: | 2019-09-24 | 
| 发明(设计)人: | 房体盈 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 | 
| 主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F16/182;G06F16/16 | 
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 | 
| 地址: | 100085 北京市海*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 文本文件 并行 上传 方法 装置 | ||
本发明公开了一种文本文件并行上传方法及装置,其中,该方法包括:将待上传文本文件切分成N个数据块,N为大于1的整数;启动N个子线程,并利用N个子线程按照一一对应关系将N个数据块同时上传至分布式文件系统。本申请公开的技术特征中,将待上传文本文件切分为N个数据块,进而利用N个子线程将N个数据块同时进行上传,其中,子线程与工作节点一一对应,因此,本申请为利用N个工作节点将N个数据块同时进行上传,与现有技术中通过一个工作节点将整个待上传文本文件进行上传相比,本申请利用N个工作节点实现数据块的上传,能够在充分利用整个集群的性能的同时达到较快的上传速度。
技术领域
本发明涉及大数据存储技术领域,更具体地说,涉及一种文本文件并行上传方法及装置。
背景技术
伴随着计算机网络的发展,海量数据的时代已经到来;对于大数据集的存储、分析、管理及挖掘,传统技术(包括传统关系数据库)是无法胜任的,如何最快最好的分析和理解这些数据是当务之急。而在现在已拥有的技术和工具中,最成熟也最成功的一套大数据解决方案为Hadoop文件存储计算框架及构架于其上的相关组件。
现有技术中的HDFS(Hadoop Distributed File System,分布式文件系统),对于HDFS的客户端来说,当某一用户利用一个客户端向HDFS中写数据时,在整个集群中,只有对应的一个工作节点工作,其他工作节点则是空闲的,此时,无法最大限度利用整个集群的性能;且,发明人发现,这种上传方式造成数据上传速度较慢。
综上所述,现有技术中将数据写入HDFS时存在无法充分利用整个集群的性能且数据上传速度较慢的问题。
发明内容
本发明的目的是提供一种文本文件并行上传方法及装置,以解决现有技术中将数据写入HDFS时存在的无法充分利用整个集群的性能且数据上传速度较慢的问题。
为了实现上述目的,本发明提供如下技术方案:
一种文本文件并行上传方法,包括:
将待上传文本文件切分成N个数据块,N为大于1的整数;
启动N个子线程,并利用所述N个子线程按照一一对应关系将所述N个数据块同时上传至分布式文件系统。
优选的,将所述N个数据块上传至所述分布式文件系统之后,还包括:
发送保存指令至所述分布式文件系统,以指示所述分布式文件系统将获取的所述N个数据块按照一一对应关系分别保存为N个独立文件。
优选的,发送保存指令至所述分布式文件系统之后,还包括:
输出提示信息,所述提示信息包含有每个所述独立文件的位置信息和名称信息以及每个所述独立文件中的数据量。
优选的,将待上传文本文件切分成N个数据块之前,还包括:
确定所述待上传文本文件的数据量,并判断所述待上传文本文件的数据量是否大于阈值,如果是,则将所述待上传文本文件切分成N个数据块,如果否,则利用一个子线程将所述待上传文本文件上传至所述分布式文件系统。
一种文本文件并行上传装置,包括:
切分模块,用于将待上传文本文件切分成N个数据块,N为大于1的整数;
上传模块,用于启动N个子线程,并利用所述N个子线程按照一一对应关系将所述N个数据块同时上传至分布式文件系统。
优选的,还包括:
指示保存模块,用于发送保存指令至所述分布式文件系统,以指示所述分布式文件系统将获取的所述N个数据块按照一一对应关系分别保存为N个独立文件。
优选的,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510917625.9/2.html,转载请声明来源钻瓜专利网。





