[发明专利]一种文本文件数据入库方法、系统及电子设备和存储介质在审

专利信息
申请号: 201910487393.6 申请日: 2019-06-05
公开(公告)号: CN110209654A 公开(公告)日: 2019-09-06
发明(设计)人: 刘忠真 申请(专利权)人: 深圳市网心科技有限公司
主分类号: G06F16/21 分类号: G06F16/21;G06F16/22
代理公司: 深圳市深佳知识产权代理事务所(普通合伙) 44285 代理人: 王仲凯
地址: 518052 广东省深圳市前海深港合作区前*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本文件数据 入库 集群 预设 中转目录 写入 改写 申请 系统及设备 存储介质 存储空间 电子设备 分析效率 格式存储 后续数据 任务配置 直接读取 资源消耗 上传 转换
【说明书】:

本申请公开了一种文本文件数据入库方法、系统及设备和介质,方法包括:判断是否满足预设入库条件;如果是,则将当前时刻下待入库目录中的文本文件数据上传至集群中预设的中转目录中;根据入库任务配置将文本文件数据从中转目录写入至集群中以parquet格式存储的数据表中。本申请预先将文本文件数据存入待入库目录,在满足预设入库条件后,将当前时刻下待入库目录中的文本文件数据通过集群中预设的中转目录写入集群中的数据表中,实现将txt格式的文本文件数据转换为parquet格式的数据,能够节省存储空间,提高后续数据分析效率,并且本申请避免了改写时造成的改写成本,解决了利用spark直接读取数据时资源消耗较大的问题。

技术领域

本申请涉及计算机技术领域,更具体地说,涉及一种文本文件数据入库方法、系统及一种电子设备和一种计算机可读存储介质。

背景技术

随着互联网的发展,尤其是近年来大数据技术越来越流行,企业都在往数字化方向转型,每个企业或大或小的建立了自己的数据平台,Hadoop(分布式系统基础架构)成为各个公司进行大数据分析的标准架构,但是Hadoop分析效率低下,运行速度慢,不能满足即时查询的分析需求。基于此,impala on Hadoop(基于分布式系统基础架构的新型查询系统)应运而生,该系统中文件存储采用parquet格式。

在相关技术中,利用开源的flume(日志收集系统)进行数据的前期采集,但是flume不支持写入parquet格式,若将flume写入的数据转换为impala支持的parquet格式的数据,一种常见的方案是通过改写flume agent来增加支持parquet格式的功能,这种方案改写成本高,还需自己编写拦截器,如果存在大量的历史数据,会导致大量文件句柄打开,可能造成服务器宕机;另一种常见的方案是基于spark(计算引擎)直接读取kafka(分布式消息系统),而这种方案对资源消耗较大,1G的数据通常需要消耗5G的内存。

发明内容

本申请的目的在于提供一种文本文件数据入库方法、系统及一种电子设备和一种计算机可读存储介质,能够节省存储空间,提高后续数据分析效率,避免了改写成本,解决了利用spark直接读取数据时资源消耗较大的问题。

为实现上述目的,本申请提供了一种文本文件数据入库方法,包括:

判断是否满足预设入库条件;

如果是,则将当前时刻下待入库目录中的文本文件数据上传至集群中预设的中转目录中;

根据入库任务配置将所述文本文件数据从所述中转目录写入至所述集群中以parquet格式存储的数据表中。

可选的,所述判断是否满足预设入库条件,包括:

判断当前时刻下所述待入库目录中的文本文件数据总量是否满足预设大小;

如果是,则判定为满足所述预设入库条件;

如果否,则判断预设时间段内是否有新的文本文件数据写入所述待入库目录中;

如果否,则判定为满足所述预设入库条件。

可选的,所述将当前时刻下待入库目录中的文本文件数据上传至集群中预设的中转目录中之前,还包括:

对所述中转目录中已存的文本文件数据进行清空操作。

可选的,所述根据入库任务配置将所述文本文件数据从所述中转目录写入至所述集群中以parquet格式存储的数据表中,包括:

获取入库任务配置文件列表;

根据所述入库任务配置文件列表中的每个配置文件生成入库进程;

利用所述入库进程将所述文本文件数据从所述中转目录导入至所述集群中以parquet格式存储的数据表中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市网心科技有限公司,未经深圳市网心科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910487393.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top