[发明专利]一种文件入库系统及方法有效
申请号: | 201911220829.1 | 申请日: | 2019-12-03 |
公开(公告)号: | CN110941593B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 唐旋;谢传家 | 申请(专利权)人: | 浪潮卓数大数据产业发展有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/11;G06F16/17 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 郗艳荣 |
地址: | 214029 江苏省无锡市滨*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件 入库 系统 方法 | ||
本发明特别涉及一种文件入库系统及方法。该文件入库系统,包括数据文件检测子系统、数据文件测量子系统、数据文件规则校验子系统、数据文件处理转换子系统、入库脚本生成子系统和入库执行子系统六个部分。文件入库系统及方法,将数据文本文件入库前、入库中、入库后需要人工手动入库实施的各项工作转化为计算机自动化入库实施装置,同时解决了数据入库时数据跳出、数据入库乱码等数据质量问题,保证了数据文件高质量自动入库。
技术领域
本发明涉及文本文件处理技术和数据库技术领域,特别涉及一种文件入库系统及方法。
背景技术
数据文本文件是一种常用的数据格式,在数据迁移、数据交换、数据ETL过程中都是一种非常常见的数据格式,同时将这种常见的数据文件高质量入库实施操作也是非常任务。
尽管在很多数据库工具里已经有一些常见的数据加载工作,但是对于数据文件本身的测量、了解和处理转换工作都是需要人工实施的,这样在对数据入库时难免会存在部分数据跳出、部分数据入库后乱码等各种质量问题。另外,在做对数据文件测量、了解过程中由于人的主观性,对数据文件的测量维度、文件结构和处理方法不一致,导致数据文件没有一个统一的测量和处理规范和标准,导致数据文件入库不但耗费大量的人力,还不能保证数据入库后的高质量,重复的工作大量产生。
在通过计算机技术的发展和对数据文本文件处理的各种工具的出现,文本文本格式转换、自动测量、处理转换等一系列的工作都可以用计算机实现,同时各类数据库的数据表标准和规范都已经建立和成熟。
基于以上情况,本发明提出了一种文件入库系统及方法,旨在建立一套完整的文件入库装置,从而实现文本文件高质量地自动化入库。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的文件入库系统及方法。
本发明是通过如下技术方案实现的:
一种文件入库系统,其特征在于:包括数据文件检测子系统、数据文件测量子系统、数据文件规则校验子系统、数据文件处理转换子系统、入库脚本生成子系统和入库执行子系统六个部分;
所述数据文件检测子系统负责对待入库的数据文件做基本检测,检测合格的数据文件即可直接进行自动化入库,不符合检测规则的数据文件则认为检测不合格,将检测不合格的数据文件对用户进行提示;
所述数据文件测量子系统负责对数据文件进行结构测量,了解文件的基本总量和结构特征;
所述数据文件规则校验子系统负责将数据文件测量的结果信息与目标库表预制的表结果规则约束信息进行字段比对,并保存比对结果信息;
所述数据文件处理转换子系统负责对数据文件的数据内容进行处理以及对数据格式进行转换操作,使数据文件满足目标表约束的条件,以达到成功入库目标。
所述入库脚本生成子系统负责根据预先预制的模板信息自动生成数据文件对应目标库表的各类脚本;所述模板信息包括各类数据库建表脚本以及数据加载控制脚本;
所述入库执行子系统负责根据所述入库脚本生成子系统生成的脚本自动执行数据文件入库,并将入库产生的错误日志保存。
所述数据文件检测子系统对待入库的数据文件做基本检测,用于实现以下功能:
(1)文件路径检测
对文件路径进行记录,检测是否存在此文件;
(2)文件格式检测
对文本文件格式进行检测,txt、csv、sql等文件格式进行判断,判断文件格式是否满足自动化入库的格式需求;
(3)文件编码检测
获取文件编码格式,并检测编码格式是否符合要求,如utf-8,ascii、gbk等编码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮卓数大数据产业发展有限公司,未经浪潮卓数大数据产业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911220829.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种微服务架构中会话转发的实现方法
- 下一篇:婴儿推车