[发明专利]实现实时数据清洗处理的系统及其方法在审
申请号: | 201910862332.3 | 申请日: | 2019-09-12 |
公开(公告)号: | CN110569237A | 公开(公告)日: | 2019-12-13 |
发明(设计)人: | 盛伟松;曾维 | 申请(专利权)人: | 上海富数科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 31002 上海智信专利代理有限公司 | 代理人: | 王洁;郑暄 |
地址: | 201802 上海市嘉定区科*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实时数据 清洗处理 历史数据处理模块 在线实时处理 波动曲线 波动数据 波动特征 处理数据 处理性能 离线数据 历史数据 清洗模块 冗余数据 时间窗口 实时处理 数据分类 数据规则 数据模型 数据拟合 数据缺失 数据问题 特征提取 重复数据 规则库 流处理 加载 引擎 清洗 滞后 应用 | ||
1.一种实现实时数据清洗处理的系统,其特征在于,所述的系统包括:
历史数据处理模块,用于根据数据模型将数据分类为波动特征和平稳特征,应用对应规则库进行处理;
实时数据清洗模块,与所述的历史数据处理模块相连接,用于通过流处理引擎加载清洗规则对数据进行实时处理。
2.根据权利要求1所述的实现实时数据清洗处理的系统,其特征在于,所述的历史数据处理模块包括:
数据模型,用于对历史数据进行分类;
过滤规则库,与所述的数据模型相连接,用于判断数据为脏数据或正确数据,并做后续处理;
纠正规则库,与所述的数据模型相连接,用于对平稳特征的进行补充或修正。
3.根据权利要求2所述的实现实时数据清洗处理的系统,其特征在于,所述的历史数据处理模块还包括清洗数据库,与所述的过滤规则库或纠正规则库相连接,用于进行实时数据清洗。
4.根据权利要求1所述的实现实时数据清洗处理的系统,其特征在于,所述的实时数据清洗模块包括:
实时数据源,用于产生业务数据,并传递至流处理引擎;
流处理引擎,与所述的实时数据源和实时数据清洗模块相连接,用于加载清洗规则,对数据进行实时区分和处理。
5.一种基于权利要求1所述的系统实现实时数据清洗处理的方法,其特征在于,所述的方法包括以下步骤:
(1)对已有的历史业务数据进行处理,将数据分为波动特征和平稳特征,并对应规则库进行处理;
(2)通过流处理引擎加载清洗规则,对数据进行实时区分和处理。
6.根据权利要求5所述的实现实时数据清洗处理的方法,其特征在于,所述的步骤(1)具体包括以下步骤:
(1.1)将数据数值化;
(1.2)将数据降维;
(1.3)选择时间窗口进行数据分组;
(1.4)提取每个窗口数据集合的特征;
(1.5)得出最后模型处理后的集合。
7.根据权利要求5所述的实现实时数据清洗处理的方法,其特征在于,所述的步骤(1)还包括以下步骤:
(1.6)根据数据的波动特征整合成过滤规则库,根据数据的平稳特征提取出纠正规则库。
8.根据权利要求5所述的实现实时数据清洗处理的方法,其特征在于,所述的步骤(2)具体包括以下步骤:
(2.1)通过消息队列将实时数据源传递至流处理引擎;
(2.2)流处理引擎在启动时加载清洗规则库,对实时数据进行数据清洗。
9.根据权利要求8所述的实现实时数据清洗处理的方法,其特征在于,所述的步骤(2.2)具体包括以下步骤:
(2.2.1)通过消息队列的消息触发流式计算;
(2.2.2)对特征进行纠正规则处理,判断是否符合规则,如果是,则纠正数据;否则,继续步骤(2.2.3);
(2.2.3)与清洗规则库碰撞,判断是否命中清洗规则,如果是,则数据为脏数据,设置追踪标识,存放入临时数据库,并推送人工;否则,数据为正确数据,存储至相应介质并反馈。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海富数科技有限公司,未经上海富数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910862332.3/1.html,转载请声明来源钻瓜专利网。