[发明专利]一种基于随机敏感度采样的不平衡数据的集成学习算法在审
申请号: | 201810075930.1 | 申请日: | 2018-01-26 |
公开(公告)号: | CN108345904A | 公开(公告)日: | 2018-07-31 |
发明(设计)人: | 吴永贤;张榆达;张建军 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 子分类器 敏感度 分类器 权重 集成学习算法 数据子集 采样 分类器模型 测试分类 调整数据 分类性能 数据采样 数据分布 数据样本 随机采样 初始化 高效性 鲁棒性 欠采样 数据集 准确率 迭代 算法 样本 | ||
1.一种基于随机敏感度采样的不平衡数据的集成学习算法,其特征在于,包括以下步骤:
1)数据集的准备和初始化,通过随机欠采样的方式得到首次子分类器;
2)根据上一次得到的子分类器,由数据集计算得到该子分类器的错误率,计算能够得到该子分类器的权值,并且利用该子分类器计算数据样本的随机敏感度值,根据子分类器的分类准确率来调整数据本身的权重;
3)通过数据样本的随机敏感度值和数据样本本身的权重,进行带权值随机采样,两种途径得到的数据样本结合而成得到新的数据子集,来训练下一个子分类器,如此迭代;根据得到的若干个子分类器和每个子分类器的权值,集成成为最终的分类器。
2.根据权利要求1所述的一种基于随机敏感度采样的不平衡数据的集成学习算法,其特征在于:在步骤1)中,给整个数据集中的每一个数据样本配上一个权重,定义二类数据集为D={(x1,y1),(x2,y2),..(xM,yM)},其中M表示数据集合的样本总数,D表示整个数据样本集合,xi表示第i个数据样本的特征,yi表示第i个数据样本的标签;将每一个数据样本的权重定义为1/M,方便之后的权重的归一化;
对于第一迭代的子分类器,使用随机欠采样分别从多数类和少数类中采样得到Np个数据样本,其中Np表示少数类数据样本的个数,并再根据数据权重,在该数据子集上训练第一个子分类器。
3.根据权利要求1所述的一种基于随机敏感度采样的不平衡数据的集成学习算法,其特征在于:在步骤2)中,用现有的数据集去测试刚训练成功的首个子分类器的错误率:
其中,E表示子分类器的错误率,W表示数据集D中被子分类器分错的数据样本的个数,Np表示少数类数据样本的个数,Nn表示多数类数据样本的个数;同时,针对子分类器的错误率定义当前训练好的分类器的重要程度,定义该子分类器在最后集成的权值为:
其中,w是该子分类器集成时的权值,ε表示的是一个低于实验允许误差级别的正数,以避免除零操作;利用该子分类器计算每一个数据样本的随机敏感度,得到每一个数据样本在当前子分类器下的随机敏感度值;
普遍的子分类器H能够在数据样本空间上存在着一条虚拟的分类边界,针对二类分类问题,分类边界讲多数类和少数类存在的空间一分为二,从而使得子分类器拥有分类的性能;但是从每一个数据样本的角度来看,数据样本在这个特征空间中存在,并对于特定的分类边界有着一定意义上的“远近”之分,随机敏感度描述的是在当前的特征空间中,数据样本的轻微扰动对分类结果的影响;所以,在数据样本的邻域空间上随机采样得到一批虚拟的样本,通过对这些虚拟样本的考察,得到一个关于该数据样本稳定性的指标;计算这些虚拟样本中同类样本数量的比重作为该数据样本的随机敏感度,计算数据样本的随机敏感度值:
其中,SSM表示样本的随机敏感度值,H(Xi)表示第i个虚拟样本在子分类器H下的分类结果,H(X)表示该样本在子分类器H下的分类结果,k表示随机采样的虚拟样本的个数,这意味着数据样本的随机敏感度值越高,样本就越“靠近”分类边界,表明数据样本未被充分训练到。
4.根据权利要求1所述的一种基于随机敏感度采样的不平衡数据的集成学习算法,其特征在于:在步骤3)中,分别针对两种值来对D进行带权重随机采样,其中D表示整个数据集合,首先,根据数据样本的随机敏感度值,从两个类中分别带权重随机采样选择Np/2个数据样本,其中Np表示少数类数据样本的数量,再根据数据样本的权重,从两个类中分别带权重随机采样选择Np/2个数据样本,将两次采样得到的数据样本组合成为一个数据样本大小为2Np的数据子集,在此训练一个子分类器,然后根据该训练好的子分类器,计算子分类器的错误率,每一个数据样本的随机敏感度和每一个数据样本根据分类是否准确而需要的权重调整,对每一个数据样本的权重调整:
其中,αt和βt表示第t次迭代时更新权重公式的中间参数,Ht(xi,yi)表示第i个数据样本(x,y)的在第t个子分类器下的分类结果,Ht(xi,y)表示第i个数据样本(x,y)的在第t个子分类器下的分类标签,Wt(i)表示第i个数据样本在第t次迭代时的权重;每次对数据样本的权重进行调整之后,进行权值的归一化处理:
其中,Zt表示所有数据样本在第t次迭代时的权重之和,作用是为了权重归一化,这样处理之后,形成如此往复的循环,对于需要集成T个子分类器的算法,循环T-1次即可训练好T个各为互补的子分类器;
根据上面得到的T个子分类器,和每一个子分类器对应的权值,将T个子分类器集成成为一个最终的分类器:
其中,Hi表示第i个子分类器,wi对应第i个子分类器的权值,G表示最终的分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810075930.1/1.html,转载请声明来源钻瓜专利网。