[发明专利]数据处理方法及装置、分类器训练方法及系统有效
申请号: | 201610912823.0 | 申请日: | 2016-10-18 |
公开(公告)号: | CN106650780B | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 赵伟;冯亚兵;廖宇;赖俊斌;柴海霞;潘宣良;刘黎春 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 李娟 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 分类 训练 系统 | ||
本发明提出一种数据处理方法及装置、分类器训练方法及系统,其数据处理方法包括:从无标签数据中提取多组数据组,其中每组数据组均包含预设数量的数据样本;为每一组数据组的数据样本设置标签,构成每一组数据组中包含所有标签组合的多个样本集,其中一个样本集中包含一种标签组合的数据样本;分别利用有标签数据和每一组数据组中的每一个样本集训练所述分类器;获取每一组数据组中最高性能分类器对应的样本集,并构成候选训练集;将所述候选训练集中预设数量的数据加入到有标签数据中。通过本发明的数据处理,可以有效提升分类器的性能,使得分类器有更好的泛化能力。
技术领域
本发明涉及计算机技术领域,特别涉及一种数据处理方法及装置、分类器训练方法及系统。
背景技术
当今互联网上每天都会产生大量的信息,且每天都在以惊人的速度膨胀。诸如社交网络、新闻评论、BBS、博客、聊天室、聚合新闻(RSS)等每时每刻都会产生大量的数据,鉴于此,基于自然语言理解领域,通过分类算法实现大量数据的分类,对于信息监管拥有广泛而深远的意义。但是人工对其加以分析和处理的速度已经远远不能满足要求,因而人们已经开始着手研究用统计和学习的方法来对大量的信息进行自动处理和分类。
在传统的机器学习中,通过各种各样的手段获取包括文本、语音、视频和图片在内的各种数据,假设所有的样本独立并服从一个确定的概率分布,并基于这样的假设,训练一个分类器,根据已知样本预测未出现在训练集中的样本,从而通过这种方法来实现数据的自动分类。
传统的机器学习一般分为监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习是指,对于一批样本,不仅知道其中每一个样本数据本身,还知道其对应的类别标签。通过设计一个分类器,对这批样本进行分类,进而能根据该划分预测新样本的类别标签。而无监督学习是指,训练集中的样本数据都没有类别标签,通过分类算法把数据分成若干类,也称之为聚类。
然而在很多应用的所要分析的海量数据中,只有一部分有类别标签,另外一部分却没有类别标签,这自然使得半监督学习近年来成为研究的热点。半监督学习即是指利用已标注类别标签和未标注类别标签的数据来设计分类器,半监督学习对于减少标注代价,提高学习机器性能具有非常重大的实际意义。
常规半监督算法的基本思路是:
①首先用有标签的数据样本训练分类器;
②用训练得到的分类器分类没有标签的数据样本;
③将得到的置信度高的数据样本加入到训练集,同时从无标签数据集中删除该部分样本;
④重新训练分类器,整个过程重复进行直至收敛。
但是,现有的这种半监督算法仍然存在着如下缺点:
1)分类器训练过程中如果一个错误分类的样本被加入了原来的训练集,那么在其后的训练过程中,它所犯的错误只会越来越深,还会诱使其它样本犯错;2).当有标签数据集和无标签数据集所服从分布差别比较大时,使用有标签数据集上训练的模型去预测无标签数据同样会出现效果很差的现象。
发明内容
本发明实施例的目的是提供一种数据处理方法及装置、分类器训练方法及系统,以解决由于引入无标签数据训练分类器可能导致分类器性能降低的问题。
本发明实施例提出一种数据处理方法,用于通过对分类器的训练来对有标签数据和无标签数据进行处理,包括:
从无标签数据中提取多组数据组,其中每组数据组均包含预设数量的数据样本;
为每一组数据组的数据样本设置标签,构成每一组数据组中包含所有标签组合的多个样本集,其中一个样本集中包含一种标签组合的数据样本;
分别利用有标签数据和每一组数据组中的每一个样本集训练所述分类器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610912823.0/2.html,转载请声明来源钻瓜专利网。