[发明专利]一种数据识别方法及装置有效

申请号：	201210362300.5	申请日：	2012-09-25
公开（公告）号：	CN103678419A	公开（公告）日：	2014-03-26
发明（设计）人：	李建强;刘春辰	申请（专利权）人：	日电(中国)有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	孔凡红
地址：	100191 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据处理技术，尤其涉及一种数据识别方法及装置。

背景技术

目前，现实和虚拟世界的数据产生速度越来越大，对数据进行自动识别会便于用户对数据的查找和使用，因此，很多应用或系统在获得新的数据时，需要通过对已有数据的识别方式，对所获得的数据进行数据识别。

目前进行数据识别的方法主要为：先从标注数据中选取相应训练数据由识别器进行学习，在获得新的数据时，即可使用学习后的识别器对该数据进行数据识别。

在进行识别器的学习时，和本专利最相关的技术包括大规模机器学习以及集成学习，下面分别对这两种学习方式进行具体说明：

大规模机器学习是指能够利用大规模数据来监督识别器学习以解决大数据分析基本问题的理论或方法，大数据（大规模数据，通常至少包括10W标注数据样本）概念的出现使很多只关心识别精度的传统的机器学习方法不再适用。

集成学习是通过利用不同的训练标注数据集合或者不同的特征集合训练得到多个识别器，在应用过程中这多个识别器以某种组合策略，比如投票，来解决某个识别问题。集成学习主要用来改善单个识别器的识别或预测等的性能精度。这种机器学习范式相对于单个识别器的学习算法来说，更容易扩展到大规模数据的学习任务。比较有影响的集成学习方法包括boosting（增强学习方法），bagging（基于可放回采样的学习方法）等。

集成学习方法可以使得识别精度较高，其主要原因是它能够通过群体决策的方式来克服单个识别器可能犯得一些识别错误，而这主要归功于多个识别器的差异性。因此，要实现多个弱识别器的组合以实现强识别器，需要不同的个体识别器在不同的识别任务中需要犯不同的错误，以造成这种差异性。

基于不同的训练集合，不同的识别器参数，或者不同的特征集合而获得的多个识别器模型需要以某种策略组合起来使用来最终决定某个测试实例的最终识别结果，这种群体决策的策略就是识别器组合。

集成学习方法具有对于大规模数据上的机器学习具有很强的可扩展性，但如果直接将他们应用到大规模数据学习问题中，由于差异性不明显，会造成最终的数据挖掘精度不是很高，不能取得理想的效果。虽然实现了大规模数据学习，但不能充分体现大规模数据学习的优势。

目前，可以通过重采样技术和划分子集的方式，使得集成学习方法能够应用到大规模学习中去，可是，不同的识别器通过不同的采样技术在大数据中进行采样，能够实现所训练的识别器的差异性，但由于只有部分的训练数据被采样并用来识别器的构建，所以标注样本中蕴含的知识并没有都用于识别器的训练。而直接将整个标注数据集分成多个子集，这种随机的标注数据集拆分的方法不能保证不同子标注集合之间的差异性，从而不能保证多个识别器之间差异性。

发明内容

本发明实施例提供一种数据识别方法及装置，以提高大数据识别的精确度。

一种数据识别方法，包括：

分别确定多个识别器对待识别数据进行数据识别的识别结果，所述多个识别器为分别通过根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集进行训练形成的识别器；

根据各个识别结果确定该待识别数据的最终识别结果。

一种数据识别装置，包括：

第一确定单元，用于分别确定多个识别器对待识别数据进行数据识别的识别结果，所述多个识别器为分别通过根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集进行训练形成的识别器；

第二确定单元，用于根据各个识别结果确定该待识别数据的最终识别结果。

本发明实施例提供一种数据识别方法及装置，根据标注数据样本的差异性将包含标注数据样本的标注数据集划分成的多个数据子集，使得各识别器分别根据各数据子集进行训练，保证了各个识别器的差异性，因此，在对待识别数据进行数据识别时，获得训练后的识别器给出的识别结果，再根据各个识别结果确定该待识别数据的最终识别结果，提高了大数据识别的精确度。

附图说明

图1为本发明实施例提供的数据识别方法流程图；

图2为本发明实施例提供的根据标注数据样本的差异性将包含标注数据样本的标注数据集划分多个数据子集的方法流程图；

图3为本发明实施例提供的根据各个识别结果确定该待识别数据的最终识别结果的方法流程图之一；

图4为本发明实施例提供的根据各个识别结果确定该待识别数据的最终识别结果的方法流程图之二；

图5为本发明实施例提供的数据识别装置结构示意图。

具体实施方式

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司，未经日电(中国)有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210362300.5/2.html，转载请声明来源钻瓜专利网。