[发明专利]离散智能制造应用的多源非结构化数据清洗方法有效
申请号: | 202110286194.6 | 申请日: | 2021-03-17 |
公开(公告)号: | CN112905845B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 李孝斌;廖喜年;石志立;尹超;刘宇杰;凌婕 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F16/90 | 分类号: | G06F16/90;G06F16/40;G06N5/04;G06N7/00 |
代理公司: | 重庆博凯知识产权代理有限公司 50212 | 代理人: | 黄河 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 离散 智能 制造 应用 多源非 结构 数据 清洗 方法 | ||
1.离散智能制造应用的多源非结构化数据清洗方法,其特征在于,包括如下步骤:
1)获取多源非结构化数据,对其进行量化特征的提取,构建多源非结构化数据的量化描述特征,并对多源非结构化数据的量化描述特征进行属性归类,确定多源非结构化数据的各种量化描述特征的特征属性类别;
2)建立所述多源非结构化数据的量化描述特征及其特征属性类别与多源非结构化数据的清洗类型之间的依赖关系,构建具备相应依赖关系的贝叶斯网络,并利用已知清洗类型的多源非结构化数据作为训练样本,对贝叶斯网络进行训练;
3)基于训练的贝叶斯网络设计正向云发生器,生成清洗类型标准云,并根据所述正向云发生器设计相应的逆向云发生器,针对待清洗的多源非结构化数据利用逆向云发生器生成相应的待清洗数据云,将所述待清洗数据云与所述清洗类型标准云进行云滴分布对比,确定所述待清洗的多源非结构化数据的清洗类型;
其中,清洗类型标准云的生成方式具体为:设计正向云发生器,以多源非结构化数据的量化描述特征作为定量数据,以多源非结构化数据的清洗类型作为定性指标,并基于训练的贝叶斯网络及其中各节点间的条件概率,确定定性指标与定量数据之间的转化关系和转化概率,生成清洗类型标准云;所述清洗类型标准云表征了不同清洗类型各自对应的云滴分布区域,清洗类型标准云中的云滴表征多源非结构化数据的量化描述特征;
确定待清洗的多源非结构化数据的清洗类型的具体方式为:根据所述正向云发生器设计相应的逆向云发生器,提取待清洗的多源非结构化数据的量化描述特征作为云滴,通过逆向云发生器生成待清洗数据云,确定待清洗的多源非结构化数据的量化描述特征所对应的云滴在待清洗数据云中的分布位置;将所述待清洗数据云与所述清洗类型标准云进行云滴分布对比,确定待清洗的多源非结构化数据的量化描述特征所对应的云滴所在的分布位置所属的清洗类型,判定为所述待清洗的多源非结构化数据的清洗类型;
所述多源非结构化数据的数据类型包括视频数据、图片数据、音频数据和文本数据;所述多源非结构化数据的量化描述特征的特征属性类别包括:
基本属性类别,用于描述多源非结构化数据的基础信息特征;
纹理属性类别,用于描述多源非结构化数据的纹理信息特征;
语义属性类别,用于描述多源非结构化数据的语意描述特征;
4)按照所属清洗类型预设的数据清洗策略,对所述待清洗的多源非结构化数据进行数据清洗。
2.根据权利要求1所述离散智能制造应用的多源非结构化数据清洗方法,其特征在于,所述步骤2)中,贝叶斯网络的构建方式具体为:
将多源非构建贝叶斯网络结构化数据的量化描述特征作为观测节点,将多源非结构化数据的各种量化描述特征所属的特征属性类别作为中间节点,将多源非结构化数据的清洗类型作为目标节点,构建贝叶斯网络的网络构架,该网络构架作为多源非结构化数据的量化描述特征及其特征属性类别与多源非结构化数据的清洗类型之间的依赖关系。
3.根据权利要求2所述离散智能制造应用的多源非结构化数据清洗方法,其特征在于,所述步骤2)中,对贝叶斯网络进行训练的方式具体为:
获取已知清洗类型的多源非结构化数据作为训练样本,提取训练样本的量化描述特征及其所属的特征属性类别,分别输入至所构建的叶斯网络的观测节点和中间节点,将训练样本所属的清洗类型输入至所构建的叶斯网络的目标节点,对贝叶斯网络进行训练,利用训练后的贝叶斯网络进行概率推理,确定贝叶斯网络中各节点间的条件概率,完成对贝叶斯网络进行训练的训练。
4.根据权利要求1所述离散智能制造应用的多源非结构化数据清洗方法,其特征在于,归属于所述基本属性类别的量化描述特征包括多源非结构化数据的名称、创建设备、创建时间中的一种或多种;
归属于所述纹理属性类别的量化描述特征包括多源非结构化数据的数据类型、视频或图片数据的色彩分布、视频或图片数据的亮度分布、视频数据的关键帧特征、视频数据或音频数据的时间流、音频数据的音调特征、音频数据的音色特征、音频数据的包络特征、文本数据的关键字、文本数据的关键段落特征中的一种或多种;
归属于所述语义属性类别的量化描述特征包括多源非结构化数据的表现主题、作者信息、评价信息、状态描述信息、分享讨论信息、受众群体信息中的一种或多种。
5.根据权利要求4所述离散智能制造应用的多源非结构化数据清洗方法,其特征在于,采用多源非结构化数据量化描述模型,来表征多源非结构化数据的量化描述特征及其归属的特征属性类别;所述多源非结构化数据量化描述模型通过基本属性类别特征数据集合BD、纹理属性类别特征数据集合LD和语义属性类别特征数据集合SD来分别描述基本属性类别、纹理属性类别和语义属性类别的量化描述特征;其中:
归属于基本属性类别特征数据集合BD的每个量化描述特征所含有特征信息项包括基本属性类别标号BD_id、基本属性类别特征项BD_set和基本属性类别特征数据内容BD_details;
归属于纹理属性类别特征数据集合LD的每个量化描述特征所含有特征信息项包括纹理属性类别标号LD_id、纹理属性特征名称LD_name、多源非结构化数据所属数据类型LD_class、纹理属性特征数据结构LD_type和纹理属性特征数据内容LD_details;
归属于语义属性类别特征数据集合SD的每个量化描述特征所含有特征信息项包括语义属性类别标号SD_id、语义属性类别特征类型SD_type和多源非结构化数据语义属性类别关键词SD_keyword。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110286194.6/1.html,转载请声明来源钻瓜专利网。