[发明专利]离散智能制造应用的多源非结构化数据清洗方法有效

专利信息
申请号: 202110286194.6 申请日: 2021-03-17
公开(公告)号: CN112905845B 公开(公告)日: 2022-06-21
发明(设计)人: 李孝斌;廖喜年;石志立;尹超;刘宇杰;凌婕 申请(专利权)人: 重庆大学
主分类号: G06F16/90 分类号: G06F16/90;G06F16/40;G06N5/04;G06N7/00
代理公司: 重庆博凯知识产权代理有限公司 50212 代理人: 黄河
地址: 400044 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 离散 智能 制造 应用 多源非 结构 数据 清洗 方法
【说明书】:

发明公开了一种离散智能制造应用的多源非结构化数据清洗方法,通过对离散智能制造应用环境下多源非结构化数据的特征化分析和清洗类型的分类,从而按照清洗类型对应数据清洗策略对待清洗的多源非结构化数据进行数据清洗,解决了多源非结构化数据的统一化描述问题和数据分类处理复杂化问题,使得对离散智能制造应用的多源非结构化数据的清洗类型分类处理借助计算机执行成为了可能,且计算机处理耗时较短,具有一定的高效性,并采用了云模型来反映多源非结构化数据的清洗类型,避免了对模糊清洗类型表达不清等问题,使得清洗类型的分类结果更为可靠,为离散智能制造应用的多源非结构化数据清洗提供了一种新的技术解决方案。

技术领域

本发明涉及大数据技术和数据清洗技术领域,具体涉及一种离散智能制造应用的多源非结构化数据清洗方法。

背景技术

在当前离散智能制造环境下,大数据的逐渐发展导致了海量数据的收集,清洗这些海量数据并从中提取出有意义的信息就变得很重要。经过近年来的探索和时间,广大科研院所和企业面向离散智能制造环境的数据清洗方面开展了大量的探究及应用,但如何对离散制造环境下的非结构化数据进行清洗,支持后续的数据挖掘的开展,一直是企业迫切需要解决的技术瓶颈,究其原因是多方面的,其中作为非结构化数据清洗的核心——多源非结构化数据清洗手段难题尤为突出,高效准确的数据清洗是准确获取机械设备实时状态信息的重要保障。

数据清洗(Data cleaning)是指对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。按照一定的规则把“脏数据”(不符合要求的数据)“洗掉”(清理掉),这就是数据清洗。数据清理工作,特别是大数据环境下的数据清理,由于数据处理量巨大,几乎无法单纯依靠人工完成,因此数据清理任务一般是由计算机完成,人工操作加以简单的辅助。

不符合要求的数据主要有缺失数据(不完整的数据)、异常数据(错误的数据)、冗余数据(重复的数据)三种清洗类型,其中每一类数据对应的清晰方法和策略,都已经有大量的研究和应用,在确定待清洗的数据所属的清洗类型,即可按照相应清洗策略执行数据清洗处理。也就是说,在确定好不同清洗类型对应清洗策略的情况下,执行数据清洗的工作任务重心,就是要确定数据所属的清洗类型。

但是,离散智能生产线应用环境中产生的多源非结构化数据,其数据类型主要包括视频数据、图片数据、音频数据和文本数据等生产线设备运行状态数据,如产线质检设备生成的检测文档、刀具切削状态图像、生产设备运行振动、产线监控视频等,这些数据都存在着数据结构不规则或格式不统一,无法直接用二维逻辑数据表进行表达的问题;并且,离散智能制造应用场景中的设备种类繁多,各机械装备资源所产生的数据信息复杂多变,导致现阶段大多数研究在支持离散制造应用下多源非结构化数据清洗方面的普遍性指导意义是有限的。其原因在于:离散智能制造应用下多源非结构化数据的数据来源广泛,缺乏统一的数据格式和标准,数据存储往往都是按照二进制进行计算机存储,导致不同格式的数据分类处理十分复杂;同时,离散制造应用环境是一个动态变化的工业活动环境,而机械设备产生的多源非结构化数据往往都含有时序信息,增加了数据分类和信息维度;这些因素都导致了对离散智能制造应用下的多源非结构化数据的清洗类型确定难度大幅增加,加大了数据分类清洗的难度。

发明内容

针对现有技术存在的上述不足,本发明要解决的技术问题是如何提供一种离散智能制造应用的多源非结构化数据清洗方法,以实现对离散智能制造应用环境下多源非结构化数据的特征化分析和清洗类型的分类,从而帮助提升离散智能制造应用的多源非结构化数据清洗对于计算机处理的可行性和有效性。

为解决上述技术问题,本发明采用了如下的技术方案:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110286194.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top