[发明专利]一种数据建模中的数据处理方法及装置在审
申请号: | 201410814222.7 | 申请日: | 2014-12-23 |
公开(公告)号: | CN105786860A | 公开(公告)日: | 2016-07-20 |
发明(设计)人: | 李辰;谭卫国;汪芳山 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 冯艳莲 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 建模 中的 数据处理 方法 装置 | ||
本发明公开了一种数据建模中的数据处理方法及装置,用以解决现有技术中,原始数据的预处理流程存在的计算量大,计算时间长,浪费计算资源,降低工作效率的问题。该方法为:根据预设的数据处理类别标识对应的数据转换函数,对读取的原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列,将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集;确定扩展特征集中每个特征的相关性系数;选择相关性系数符合设定条件的特征作为重要特征,在扩展特征集中筛选出重要特征对应的数据列。这样,避免通过穷举数据预处理方法进行数据建模造成的消耗时间长,计算量大的问题,提高了计算效率,提高了自动化数据建模的灵活性和适应性。
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据建模中的数据处理方法及装置。
背景技术
数据挖掘是数据库知识发现中的其中一个步骤,是从大量数据中寻找隐藏的关系提取出有价值的信息。通常,数据挖掘中会结合数据库技术、统计学、在线分析处理、机器学习领域的方法和技术,从不同的角度对数据进行处理。
数据挖掘的具体流程包括以下步骤:业务理解、数据理解、数据准备、建立模型、模型评估以及模型部署。
在数据准备过程中,需要将获取的原始数据进行预处理。原始数据为保存在数据库或者数据仓库中的宽表数据,参阅表1所示,原始数据包括缺失值(如李XX的年龄)、异常值(张XX的年龄和通话时长),还包括连续值(年龄列、套餐费列、通话时长列)和离散值(性别、地区、是否离网),原始数据中的每一列称为一个特征,在实际应用中,可以根据训练不同的需要,选择不同的特征作为目标特征。
表1原始数据表
在针对原始数据的特征进行预处理过程中,包括缺失值填充、异常值处理、连续值标准化、连续值离散化、离散值合并操作等方法。
数据准备过程中,对原始数据进行预处理是数据挖掘、数据建模流程中非常重要的步骤,预处理可以将原始数据转化为适合数据建模算法的训练数据集,更为重要的是,预处理的结果直接影响数据挖掘和数据建模的效果。然而在传统数据挖掘中,数据准备通常是由数据挖掘领域专家进行,不仅对建模人员的技术要求高,而且预处理过程需要人工参与,效率较低,耗时长,且对数据预处理的流程不具有复用性。
目前,通常采用网格搜索进行原始数据预处理,在使用网格搜索进行数据预处理时,需要设置所有预处理的方法以及每个方法的参数配置,如在连续值离散化具体包括等宽分箱、等深分箱、等频率分箱等方法,等宽分箱方法的参数可以为10,50或100等;根据不同的预处理方法以及参数值的不同,划分为一系列网格,每个网格对应一种预处理方法的组合,称为一个预处理方案;依次对每个网格中的点进行计算;分别将每次计算输出的数据结果作为训练数据进行模型训练,训练完成后,对模型的效果进行评估,生成对应每个网格的评价指标,筛选出评价指标最优的网格对应的结果为最终结果。
采用网格搜索需要穷举所有可行的预处理方案,并对每个方案的预处理结果进行建模,得到最终的数据预处理方案。显然,对原始数据进行预处理的方法很多,每个方法可能对应不同的参数值,因此,组合生成的预处理方案较多,复杂度和数量成指数关系,计算量大,并且评估每一个预处理方案的时候均需要进行完整的数据建模流程,数据建模流程计算时间长,重复建模计算量大,增加了计算机的运行负载,浪费计算资源,降低了计算机的工作效率。
发明内容
本发明实施例提供一种数据建模中的数据处理方法及装置,用以解决现有技术中原始数据预处理流程存在的计算时间长,计算量大,增加计算机运行负载,浪费计算资源,降低计算机工作效率的问题。
本发明实施例提供的具体技术方案如下:
第一方面,一种数据建模中的数据处理方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410814222.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于搜索获取问答专题数据的方法和装置
- 下一篇:搜索结果整合方法和装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置