[发明专利]实现实时数据清洗处理的系统及其方法在审

专利信息
申请号: 201910862332.3 申请日: 2019-09-12
公开(公告)号: CN110569237A 公开(公告)日: 2019-12-13
发明(设计)人: 盛伟松;曾维 申请(专利权)人: 上海富数科技有限公司
主分类号: G06F16/215 分类号: G06F16/215
代理公司: 31002 上海智信专利代理有限公司 代理人: 王洁;郑暄
地址: 201802 上海市嘉定区科*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 实时数据 清洗处理 历史数据处理模块 在线实时处理 波动曲线 波动数据 波动特征 处理数据 处理性能 离线数据 历史数据 清洗模块 冗余数据 时间窗口 实时处理 数据分类 数据规则 数据模型 数据拟合 数据缺失 数据问题 特征提取 重复数据 规则库 流处理 加载 引擎 清洗 滞后 应用
【说明书】:

发明涉及一种实现实时数据清洗处理的系统,包括历史数据处理模块,用于根据数据模型将数据分类为波动特征和平稳特征,应用对应规则库进行处理;实时数据清洗模块,与所述的历史数据处理模块相连接,用于通过流处理引擎加载清洗规则对数据进行实时处理。本发明还涉及一种实现实时数据清洗处理的方法。采用了本发明的实现实时数据清洗处理的系统及其方法,将历史数据切分为不同的时间窗口,进行特征提取,然后按照特征分为平稳数据和波动数据,对于数据拟合出波动曲线作为数据规则,避免了因为冗余数据、重复数据、数据缺失等数据问题影响业务的发展的问题,避免了因为离线数据而滞后处理数据,能够在线实时处理处理,提高了处理性能。

技术领域

本发明涉及大数据处理领域,尤其涉及数据清洗领域,具体是指一种实现实时数据清洗处理的系统及其方法。

背景技术

在当今时代,大数据已经密切的融入了我们的日常生活当中。随着海量数据的到来,一些显而易见的数据问题也在困扰着我们。冗余数据,重复数据,数据缺失等数据问题影响业务的发展,所以需要对数据进行清洗。本发明先提出一种基于历史业务数据的实时数据清洗方法,主要解决数据处理中的以下问题:

1、数据冗余:

业务本身产生的重复数据,或者多个数据源合并产生的重复数据。

2、数据缺失:

因为网络原因,或者版本迭代等其他原因,导致数据不完整。

3、数据错误或不一致:

数据的格式不一致,数据获取的时候数据源不正确,或者一些其他人为原因导致的数据错误,需要做数据纠正。

4、滞后的离线处理:

目前很多公司的数据清洗,只能处理离线数据,即过去一段时间的数据导入离线数据库进行处理,在线实时的处理由于处理性能无法得到满足。

发明内容

本发明的目的是克服了上述现有技术的缺点,提供了一种满足正确性高、处理效率高、处理及时的实现实时数据清洗处理的系统及其方法。

为了实现上述目的,本发明的实现实时数据清洗处理的系统及其方法如下:

该实现实时数据清洗处理的系统,其主要特点是,所述的系统包括:

历史数据处理模块,用于根据数据模型将数据分类为波动特征和平稳特征,应用对应规则库进行处理;

实时数据清洗模块,与所述的历史数据处理模块相连接,用于通过流处理引擎加载清洗规则对数据进行实时处理。

较佳地,所述的历史数据处理模块包括:

数据模型,用于对历史数据进行分类;

过滤规则库,与所述的数据模型相连接,用于判断数据为脏数据或正确数据,并做后续处理;

纠正规则库,与所述的数据模型相连接,用于对平稳特征的进行补充或修正。

较佳地,所述的历史数据处理模块还包括清洗数据库,与所述的过滤规则库或纠正规则库相连接,用于进行实时数据清洗。

较佳地,所述的实时数据清洗模块包括:

实时数据源,用于产生业务数据,并传递至流处理引擎;

流处理引擎,与所述的实时数据源和实时数据清洗模块相连接,用于加载清洗规则,对数据进行实时区分和处理。

该利用上述系统实现实时数据清洗处理的方法,其主要特点是,所述的方法包括以下步骤:

(1)对已有的历史业务数据进行处理,将数据分为波动特征和平稳特征,并对应规则库进行处理;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海富数科技有限公司,未经上海富数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910862332.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top