[发明专利]一种文件入库系统及方法有效

专利信息
申请号: 201911220829.1 申请日: 2019-12-03
公开(公告)号: CN110941593B 公开(公告)日: 2022-07-26
发明(设计)人: 唐旋;谢传家 申请(专利权)人: 浪潮卓数大数据产业发展有限公司
主分类号: G06F16/16 分类号: G06F16/16;G06F16/11;G06F16/17
代理公司: 济南信达专利事务所有限公司 37100 代理人: 郗艳荣
地址: 214029 江苏省无锡市滨*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文件 入库 系统 方法
【权利要求书】:

1.一种文件入库系统,其特征在于:包括数据文件检测子系统、数据文件测量子系统、数据文件规则校验子系统、数据文件处理转换子系统、入库脚本生成子系统和入库执行子系统六个部分;

所述数据文件检测子系统负责对待入库的数据文件做基本检测,检测合格的数据文件即可直接进行自动化入库,不符合检测规则的数据文件则认为检测不合格,将检测不合格的数据文件对用户进行提示;

所述数据文件检测子系统对待入库的数据文件做基本检测,用于实现以下功能:

(1)文件路径检测

对文件路径进行记录,检测是否存在此文件;

(2)文件格式检测

对文本文件格式进行检测,判断文件格式是否满足自动化入库的格式需求;

(3)文件编码检测

获取文件编码格式,并检测编码格式是否符合要求;

(4)乱码检测

对文件内容进行批量扫描,检查是否存在乱码或不能识别的字符;

(5)文件读写权限检测

对文件的读写权限进行检查,确定文件是否具有编写及处理的权限;

所述数据文件测量子系统负责对数据文件进行结构测量,了解文件的基本总量和结构特征;用于实现以下功能:

(1)行列数量统计,对数据文件行数和列数进行统计并记录;

(2)行列分隔符数量统计

自动统计文件行分隔符数量和列分隔符数据,通过行列分隔相除判断文件内容是否含有行列分隔符,影响数据质量;

(3)列值最大长度测量,自动统计文件每列每行值最大长度;

(4)列值类型测量

自动对文件每列类型进行判断是字符串、数值还是其他类型;

(5)小数位测量

对列值类型为数值的列进行小数位测量,自动检测出最长小数据位;

所述数据文件规则校验子系统负责将数据文件测量的结果信息与目标库表预制的表结果规则约束信息进行字段比对,并保存比对结果信息;

所述数据文件规则校验子系统,用于实现以下功能:

(1)库表规则预制

将各类数据库建表规则约束设置到数据文件规则校验子系统里,包括字段命令规则、字段类型、字段最长长度及字段最大数量约束;

(2)库表类型映射

设置库表类型与测量的文件的类型的映射对应关系,将整数对应int,将字符型对应nvarchar;

(3)列值长度校验

将测量的列最长字符串长度与目标表约束规则的最长长度进行校验,判断是否超长需要进行字段切分;

(4)小数位校验

对数值型的数据,对小数位与目标表各数值小数位进行校验;

所述数据文件处理转换子系统负责对数据文件的数据内容进行处理以及对数据格式进行转换操作,使数据文件满足目标表约束的条件,以达到成功入库目标;

所述数据文件处理转换子系统,用于实现以下功能:

(1)长字段切分,对超长字段进行拆分;

(2)文件编码转换

对非UTF-8编码格式的数据文件进行转码,使其转码为UTF-8格式;

(3)行列删除,对文件行列进行删除操作;

(4)格式转换,对数据文件格式进行转换;

(5)小文件合并,将多个小文件按列合拼到一个文件里,或者按行合拼到一个文件里,形成一个大文件;

(6)大文件拆分,将大数据文件进行拆分成小文件,分为按行拆分、按列拆分或按文件大小拆分;

所述入库脚本生成子系统负责根据预先预制的模板信息自动生成数据文件对应目标库表的各类脚本;

所述入库脚本生成子系统,用于实现以下功能:

(1)入库脚本模板库

对各类数据库的入库脚本预制一套模板,包括建表脚本模板、控制脚本模板和执行脚本模板;

(2)建表脚本生成,按照入库目标表模板自动生成数据文件对应的建表脚本;

(3)控制脚本生成,按照入库目标表模板自动生成数据文件对应的控制脚本;

(4)执行脚本生成,按照入库目标表模板自动生成数据文件对应的执行脚本;

(5)脚本验证测试,对生成的脚本进行测试;

所述入库执行子系统负责根据所述入库脚本生成子系统生成的脚本自动执行数据文件入库,并将入库产生的错误日志保存;

所述入库执行子系统,用于实现以下功能:

(1)入库访问配置,配置目标库的类型和访问地址、方式;

(2)入库自动执行,系统自动执行建表脚本和入库执行脚本;

(3)入库错误日志,日志记录入库时跳出的数据或者其他错误;

(4)入库数据检验,对入库的数据调取查询。

2.一种基于权利要求1所述的文件入库系统的文件入库方法,其特征在于,包括以下步骤:

第一步,数据文件通过输入数据文件检测子系统进行文件检测,检测合格的数据文件即可直接进行自动化入库,不符合检测规则的数据文件则认为检测不合格,将检测不合格的数据文件对用户进行提示;

第二步,利用数据文件测量子系统对数据文件字段、行列数以及行列分隔符进行自动测量,了解文件的基本总量和结构特征;

第三步,利用数据文件规则校验子系统将数据文件测量的结果与目标库表的建表规则约束进行比对校验,数据文件处理转换子系统依据规则校验结果对数据文件进行处理和转换;

第四步,对处理和转换的文件进行再次测量和规则校验,依据第二次测量结果通过入库脚本生成子系统自动创建入库脚本、数据加载控制脚本和执行脚本;

第五步,入库执行子系统自动执行数据文件入库工作。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮卓数大数据产业发展有限公司,未经浪潮卓数大数据产业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911220829.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top