[发明专利]数据预处理方法及装置在审
申请号: | 202110789650.9 | 申请日: | 2021-07-13 |
公开(公告)号: | CN113515577A | 公开(公告)日: | 2021-10-19 |
发明(设计)人: | 郝芳;李策;刘晏萁;杨晓然 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/215;G06K9/62 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 赵平;董骁毅 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 预处理 方法 装置 | ||
本申请实施例提供一种数据预处理方法及装置,也可用于金融领域,方法包括:对收集到的样本数据进行特征分类,并确定所述样本数据的特征类型数量和特征整体缺失率;对所述样本数据中各特征类别的样本数据进行特征探索和异常检测,确定各特征类别的样本数据的特征分布、特征空值率、特征相关关系以及异常样本;根据所述样本数据的特征类型数量和所述特征整体缺失率以及各特征类别的样本数据的特征分布、特征空值率、特征相关关系、样本聚类结果中的至少一种,生成所述样本数据的数据探索综述、数据探索结果报告和异常检测结果报告;本申请能够有效提高数据预处理的效率和准确率。
技术领域
本申请涉及数据处理领域,也可用于金融领域,具体涉及一种数据预处理方法及装置。
背景技术
数据预处理指根据数据探索和异常检索结果进行数据清洗的过程,数据预处理是进行数据分析和数据建模的前提,参见图10现有技术中的数据预处理方法流程示意图。
全面规范的数据预处理过程是十分必要的,一方面数据分析时,对特征和样本的全面探索可以充分利用数据价值避免结论单薄和信息浪费,另一方面在数据建模时,数据决定模型的上限,大偏度、严重不对称分布的特征和脱离群体的异常样本都会干扰模型的拟合,影响其准确率、运行效率和稳定性。
然而,在实际项目中的数据预处理过程往往是不全面且缺乏校验的。数据探索和异常检测过程都是分析师依经验进行,完全依赖于分析师知识体系和主观能动性,存在项目只对部分特征进行了数据预处理、或完全越过预处理过程直接进行分析和建模的现象,加之缺乏监督机制,经常存在脏数据过多、数据背离实际、数据分析报告维度单一,模型可解释性差/稳定性差的情况,使得分析和建模效果大打折扣。
市场缺乏自动化的普适性的预处理框架,已发布专利成果多集中于限定领域的特定预处理维度,如仅针对广告领域的异常样本检测专利等。考虑到数据清洗与转换和实际业务联系紧密,但各领域内数据探索和异常检测内容基本一致——都是进行特征分布探索、缺失值统计、异常值判断、异常样本检测等,因此,缺乏聚焦于数据预处理阶段中的数据探索和异常检测的技术方案。
发明内容
针对现有技术中的问题,本申请提供一种数据预处理方法及装置,能够有效提高数据预处理的效率和准确率。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种数据预处理方法,包括:
对收集到的样本数据进行特征分类,并确定所述样本数据的特征类型数量和特征整体缺失率;
对所述样本数据中各特征类别的样本数据进行特征探索和异常检测,确定各特征类别的样本数据的特征分布、特征空值率、特征相关关系以及异常样本;
根据所述样本数据的特征类型数量和所述特征整体缺失率以及各特征类别的样本数据的特征分布、特征空值率、特征相关关系、样本聚类结果中的至少一种,生成所述样本数据的数据探索综述、数据探索结果报告和异常检测结果报告。
进一步地,所述根据所述样本数据的特征类型数量和所述特征整体缺失率以及各特征类别的样本数据的特征分布、特征空值率、特征相关关系、样本聚类结果中的至少一种,生成所述样本数据的数据探索综述和数据探索结果报告,包括:
根据所述样本数据的特征类型数量确定数据探索综述中的样本数据概述信息;
对特征类别为连续型单变量特征、离散型特征以及日期型特征的样本数据探索结果进行变量遍历输出,确定数据探索结果报告中的特征分布信息和特征空值率信息;
计算特征类别为连续型多变量特征的样本数据的两两相关系数,确定数据探索结果报告中的特征相关关系信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110789650.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置