[发明专利]一种通用的文本数据处理方法在审

专利信息
申请号: 201611094779.3 申请日: 2016-12-02
公开(公告)号: CN106776512A 公开(公告)日: 2017-05-31
发明(设计)人: 邱建波 申请(专利权)人: 浪潮通信信息系统有限公司
主分类号: G06F17/24 分类号: G06F17/24;G06F9/445;G06F11/32
代理公司: 济南信达专利事务所有限公司37100 代理人: 孟峣
地址: 250100 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 通用 文本 数据处理 方法
【说明书】:

技术领域

发明涉及计算机技术领域,具体地说是一种实用性强、通用的文本数据处理方法。

背景技术

传统的文本数据接口,因为字段调整或者增加,以及分割符的不同,部分字段需解析过程进行转换处理,所以需经常对代码经常改动,维护比较复杂,并且会因为不恰当的调整影响其他文本文件入库。

在以往文本处理接口,经常因为文件提供方问题,导致数据文件内容缺失,或者文件没有送达,导致相关应用出问题。

此外,现有技术还存在以下缺陷:

代码经常调整,容易互相干扰,维护成本高:因为字段的添加和对字段的特殊处理,需要频繁代码改动,容易因为测试不全而导致其他文件处理出现问题。

无法对异常情况进行告警,或者有告警不全面:因为没有对采集文件进行监控,导致文件内容和数量出现问题无法及时发现。通过邮寄附件的方式,可以更直观的查看所有接口运行情况。

基于此,现提供一种通用的文本数据处理方法,可有效解决上述缺陷。

发明内容

本发明的技术任务是针对以上不足之处,提供一种实用性强、通用的文本数据处理方法。

一种通用的文本数据处理方法,其实现过程为:

将采集的文本进行对象化解析,采用统一的配置文件描述来定义文本解析的内容;

对文件采集和处理过程进行监控,及时发现文本异常,当文件出现异常时发出告警。

将采集的文本进行对象化解析的过程为:

一、首先读取配置文件,组织定义配置文件的信息:确定文件标题名称、分隔符以及输出和处理方式;

二、获取一行数据,查看是否有备份,如果有则拼接备份,然后进入下一步,没有则直接进入下一步;

三、按分隔符拆分,查看分割数组和定义是否相同,相同则根据定义的输出进行数据处理,自动生成入库控制文件。

在组织定义配置文件的信息中,根据文件标题名称获取相应的配置文件,然后对配置文件用xml包解析,获取我们需要的文件标题、分隔符、输出字段排序、以及每个字段来源和相应的处理函数。

所述配置文件,包含文本自身字段和后期处理字段,并且包含文件的ftp来源信息,其中后期处理字段为处理、拆分或者合并的字段,即根据文件类型的字段个数来处理数据换行问题,非文件来源的按里面填写的函数和参数来处理。

步骤三的具体过程为:

A、打开配置文件开始解析,每读一行line,根据分隔符拆分,判断分割数组长度是否和文件标题一致并且包含结尾符;

B、如果拆分长度不一致或者没有发现结尾符,转到A;

C、拆分长度一致并包含结尾符,加载输出排序列表,根据字段对应的函数进行后期处理,然后根据文件记录数约束写入入库数据文件和入库控制文件。

对文件采集和处理过程进行监控时,按文件采集粒度对文件进行监控,按粒度来进行数据和文件大小比对,及时发现采集文件异常。

对文件采集和处理过程进行监控的具体过程为:

遍历接口列表,根据时间粒度对前后文件的数量和记录数进行比对,对有偏差的数据写入告警文件;

当接口列表遍历结束,生成所有采集接口报告,判断告警文件大小,如果不为空,则根据配置对相应人员进行告警提醒。

有偏差的数据获取并告警过程为:

首先获取一个接口信息,根据接口编号读取当前粒度文件日志;

检查文件记录数,等于0则写入告警文件;

把当前粒度与上一粒度记录进行比对,偏差过大则写入告警文件;

统计当前粒度文件类型数与上一文件数,如果不相等则写入告警文件。

所述粒度偏差是指采集数据文件大小偏差超过0.05~5%时,写入告警文件。

遍历接口列表的过程为:

根据接口ID,获得当前的文件数,上一次采集时间和采集总数;

根据当前时间和上次采集时间对文件两次同一类型文件采集的数量进行对比和计算;

如果当前采集总文件数为0,写入告警文件;循环判断每个类型文件大小异常情况,如果偏差大于0.05%,将相关信息写入告警文件。

本发明的一种通用的文本数据处理方法,具有以下优点:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮通信信息系统有限公司,未经浪潮通信信息系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611094779.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top