[发明专利]一种数据处理方法及装置在审

申请号：	201611075915.4	申请日：	2016-11-28
公开（公告）号：	CN108121993A	公开（公告）日：	2018-06-05
发明（设计）人：	张志鹏;姚振杰	申请（专利权）人：	中国移动通信有限公司研究院;中国移动通信集团公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京派特恩知识产权代理有限公司 11270	代理人：	王军红;张颖玲
地址：	100053 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据样本分类数据集合数据处理数据处理装置分类过程判决结果弱分类器权重输出
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种数据处理方法，包括：获取多个数据样本；所述多个数据样本形成数据集合；利用所述数据集合，基于Adaboost算法，确定所述多个数据样本的分类；其中，确定所述多个数据样本的分类过程中，每个弱分类器的输出表征对数据样本分类的判决结果为以下之一：正确、错误、有缺失值未确定数据样本的分类；分类错误和有缺失值未确定数据样本分类的数据样本的权重增加，以对所述多个数据样本进行下一次的分类。本发明同时还公开了一种数据处理装置。

技术领域

本发明涉及数据处理领域，尤其涉及一种数据处理方法及装置。

背景技术

随着互联网和移动互联网的高速发展，数据呈几何量级的快速增长，数据总量大概每六个月翻一番。大量的有效信息隐藏在数据的海洋中，用户需要充分利用数据，对数据进行有效的挖掘和分析，才能够发现其中隐藏的有效信息，从而让数据产生应有的价值。然而，实际获取数据的过程中，不可避免地会有部分数据缺失，每个数据样本都可能存在部分缺失，数据的缺失会给数据挖掘和分析任务带来巨大的挑战。

对于缺失的数据，目前数据缺失处理方法包括两大类：一类是剔除缺失值；二类是对缺失值进行插补。

然而，这两类处理方式均存在一定问题，具体表现在：

提出缺失值的方法是以信息的损失为代价换取剩余数据的完整性，当缺失的数据量比较大时，大部分样本会被剔除，失去统计意义。

对于插补的方式，无论如何插补，插补结果与实际情况总会有偏差，这种偏差会在后续处理过程中产生累积，产生更多问题。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种数据处理方法及装置。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种数据处理方法，包括：

获取多个数据样本；所述多个数据样本形成数据集合；

利用所述数据集合，基于Adaboost算法，确定所述多个数据样本的分类；其中，

确定所述多个数据样本的分类过程中，每个弱分类器的输出表征对数据样本分类的判决结果为以下之一：正确、错误、有缺失值未确定数据样本的分类；

分类错误和有缺失值未确定数据样本分类的数据样本的权重增加，以对所述多个数据样本进行下一次的分类。