[发明专利]一种基于l0-合页损失函数的鲁棒分类方法在审
| 申请号: | 201810310185.4 | 申请日: | 2018-04-08 |
| 公开(公告)号: | CN108764274A | 公开(公告)日: | 2018-11-06 |
| 发明(设计)人: | 李洽;唐建雄 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林瑞云 |
| 地址: | 510220 *** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 损失函数 合页 鲁棒 分类超平面 分类样本 分类器 噪声 标签 测试样本 大小变化 分类性能 训练样本 罚函数 离散性 鲁棒性 下降法 分类 平滑 分块 分段 判决 预测 | ||
本发明提出了一种基于l0‑合页损失函数的鲁棒分类方法,所述方法利用罚函数与分块坐标下降法解出分类超平面,对测试样本进行预测判决,所述方法包括鲁棒分类器l0‑SVM模型,所用的l0‑合页损失函数具有分段常数性质,误分类样本的离散性不会被平滑,并且误分类样本离边界的远近不影响l0‑合页损失函数的大小变化,基于l0‑合页损失函数设计的分类器l0‑SVM对被标签噪声具有鲁棒性。在训练样本包含标签噪声的情况下,仍能够训练出分类性能较好的分类超平面。
技术领域
本发明涉及计算机领域,具体涉及一种基于l0-合页损失函数的鲁棒分类方法。
背景技术
分类问题是机器学习领域的一个基本的问题,并且已经被成功应用于众多领域,如计算机视觉、文本分类、医学诊断等。分类属于有监督学习,其目的是在每个训练样本被确定属于哪一类的监督下学会一个分类模型,即分类器,该模型能把数据库中的数据项映射到给定类别中的某一个类别。
其中支持向量机(SVM)作为一种有监督学习方法应用于分类问题中,对于无污染的训练样本,支持向量机通常能够拥有不错的分类性能,但对于被标签噪声污染的训练样本而言,支持向量机的性能就有可能会减弱,原因在于合页损失函数(hinge loss)对错误标注样本敏感,使得支持向量机无法在标签噪声环境下得到较好的表现。
对于许多实际应用中的数据来说,它们的标签常常会因为某些原因被污染,如被人工错误标注,这类型的污染被称为标签噪声,标签噪声是分类问题中的有待解决的重要问题之一。
目前已有许多的方法被提出用于处理标签噪声问题,比较著名的方法有集成学习方法,如bagging和boosting,但这类方法涉及多个优化问题的求解。求解关于鲁棒损失函数的优化问题是另一种处理标签噪声的方法,与前一种方法不同的是,这种类型的方法仅仅需要求解一个优化问题。
从极大似然估计的角度来看,0-1损失函数是处理分类问题最理想的损失函数,Frénay B与Verleysen M在Classification in the presence of label noise:asurvey.IEEE transactions on neural networks and 1earning systems,2014,25(5):845-869.指出0-1 损失函数对标签噪声具有鲁棒性。然而,有关0-1损失函数的优化问题的存在性仍未被证明。因此,许多鲁棒损失函数被用于代替0-1损失函数应用于分类问题,应用得较为广泛的有Wang L等人在Hybrid huberized support vector machines formicroarrav classification and gene selection.Bioinformatics,2008,24(3): 412-419提出由连续分段函数定义的huberized hinge loss,与平方合页损失函数(squarehinge loss)相比,其对误分类样本的敏感度有所降低。近年来,许多改善支持向量机鲁棒性的损失函数也被提出,如Nie F等人在Multiclass capped lp-norm SVM for robustclassifications.The 31st AAAI Conference on Artificial Intelligence(AAAI),SanFrancisco,USA.2017提出的Capped lp- hinge loss,如果误分类样本距离其对应边界的距离超过阈值时,损失函数的值不再变化;Huang X等人在Ramp loss linear programmingsupport vector machine.Journal of Machine Learning Research, 2014,15(1):2185-2211应用的Ramp loss等。基于这些损失函数设计的分类器都具有一定的鲁棒性。但由于这类型损失函数对误分样本具有平滑作用,使得训练样本的离散性不能够被保留。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810310185.4/2.html,转载请声明来源钻瓜专利网。





