[发明专利]非平衡样本分类的集成迁移学习方法有效

申请号：	201110452050.X	申请日：	2011-12-29
公开（公告）号：	CN102521656A	公开（公告）日：	2012-06-27
发明（设计）人：	于重重;谭励;田蕊;刘宇;吴子珺	申请（专利权）人：	北京工商大学
主分类号：	G06N5/00	分类号：	G06N5/00
代理公司：	北京万象新悦知识产权代理事务所(普通合伙) 11360	代理人：	贾晓玲
地址：	100048***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	平衡样本分类集成迁移学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于机器学习领域，针对冗余数据量大且正负样本不平衡的辅助训练数据，提出了一种改进集成迁移学习算法，利用这些辅助训练数据迁移帮助目标数据进行分类。

背景技术

迁移学习是近年来机器学习领域研究的热门，它针对新任务中标记数据量小的特点，提出有效地利用已过时的数据迁移应用到新的任务中：虽然大量过时数据与待解决问题领域有所差异，但是其中肯定会存在一些对新的分类问题有所帮助的数据。为了能够找到这些有用的数据，利用少量已被分类的新数据，来挖掘旧数据中的有价值信息。最后根据两部分数据中所有的有用信息来训练一个较高效的分类模型，实现旧数据到新数据的知识迁移。

目前，针对不同迁移学习任务有多种解决方法：

Q.Yang等人提出将朴素贝叶斯分类器(Naive Bayes Classifier)推广成一个支持跨领域文本分类的分类器，实现了不同领域文本之间知识的迁移。(WDai，G.-R.Xue，QYang，and YYu.Transferring naive bayes classifiers for text classification[A].The Twenty-Second National Conference on Artificial Intelligence[C]，2007.540-545.)

Dai等人提出将集成学习应用到迁移学习中，通过boosting技术将弱学习算法“提升”为强学习的算法-TrAdaboost，该算法将迁移辅助数据和目标数据这两部分数据集直接组合在一起，组成一个混合数据集作为训练集，然后在这个数据集上利用TrAdaboost算法训练分类模型。(YLiu and PStone.Value-function-based transfer for reinforcement learning using structure mapping[A].In Proceedings of theTwenty-First National Conference on Artificial Intelligence [C]，2006.877-882.)

将集成学习算法应用到迁移学习中，可以在不改变弱分类器分类精度的情况下，通过集成将弱学习算法“提升”为强学习算法，从而有效提升迁移学习效果，然而该方法也存在一些问题：

TrAdaboost算法适用于解决基于对称的二分类问题，正负数据同等看待。然而，在现实世界中表征两类不同类别的样本分布上有可能是极度不平衡的，并且重要性也存在很大的差异。

另外，辅助数据中往往存在大量冗余数据，这些数据可能与目标数据集很不相似，它们的存在不但会影响模型的训练速度，还会导致分类精度的下降。

发明内容

本发明的目的是提供一种新的方法，通过优化样本权重分配及调整策略，提高数据量小、信息量大的一类样本(负样本)的贡献率；并在训练过程中动态剔除“不相关”数据，根据设定好的样本阈值下限，淘汰权重值过小的那部分数据，经过T轮的迭代训练，辅助训练数据将不断趋于优化。

本发明的原理是：利用迁移的方法，针对正负样本不平衡的数据进行分类，首先将辅助训练数据与目标数据提取出的特征属性向量混合成训练集，然后将该训练集上的每维特征属性分别应用弱学习算法。在初始化时，将正负样本赋予不同的权重，保证占总样本比例小但信息量大的负样本初始权重大。每轮训练过程中按比例抽取部分样本作为训练子集进行训练，训练结束后，从若干个简单分类器中选择误差最小的那个，作为一个弱分类器h，并按照冗余数据动态剔除算法调整训练数据集。这样，经过T轮迭代后就可以得到一个弱分类器序列(h₁，h₂，...，h_T)，最终的分类函数f(x)采用一种投票方式产生，即将多个弱分类器通过一定的方法叠加(boost)起来组合成一个强分类器。方法流程如图5所示。

本发明提供的技术方案如下：

一种非平衡样本分类的集成迁移学习方法，其特征是，包括如下步骤：

1)将迁移辅助数据集A与目标数据集O按比例混合成训练数据集C；

2)初始化样本权重；

3)求出归一化样本权重；

设迭代总次数为T，从1到T每轮迭代训练依次完成下面4)～9)步：

4)随机抽取训练子集D；

5)如果训练子集D中含有正负两类样本，则执行第6)步；否则，在不包含的另一类中抽取部分样本填入训练子集D，以确保训练子集D中存在正负两类样本；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工商大学，未经北京工商大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110452050.X/2.html，转载请声明来源钻瓜专利网。