[发明专利]一种基于l₀-合页损失函数的鲁棒分类方法在审

申请号：	201810310185.4	申请日：	2018-04-08
公开（公告）号：	CN108764274A	公开（公告）日：	2018-11-06
发明（设计）人：	李洽;唐建雄	申请（专利权）人：	中山大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林瑞云
地址：	510220 ***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	损失函数合页鲁棒分类超平面分类样本分类器噪声标签测试样本大小变化分类性能训练样本罚函数离散性鲁棒性下降法分类平滑分块分段判决预测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出了一种基于l₀‑合页损失函数的鲁棒分类方法，所述方法利用罚函数与分块坐标下降法解出分类超平面，对测试样本进行预测判决，所述方法包括鲁棒分类器l₀‑SVM模型，所用的l₀‑合页损失函数具有分段常数性质，误分类样本的离散性不会被平滑，并且误分类样本离边界的远近不影响l₀‑合页损失函数的大小变化，基于l₀‑合页损失函数设计的分类器l₀‑SVM对被标签噪声具有鲁棒性。在训练样本包含标签噪声的情况下，仍能够训练出分类性能较好的分类超平面。

技术领域

本发明涉及计算机领域，具体涉及一种基于l₀-合页损失函数的鲁棒分类方法。

背景技术

分类问题是机器学习领域的一个基本的问题，并且已经被成功应用于众多领域，如计算机视觉、文本分类、医学诊断等。分类属于有监督学习，其目的是在每个训练样本被确定属于哪一类的监督下学会一个分类模型，即分类器，该模型能把数据库中的数据项映射到给定类别中的某一个类别。

其中支持向量机(SVM)作为一种有监督学习方法应用于分类问题中，对于无污染的训练样本，支持向量机通常能够拥有不错的分类性能，但对于被标签噪声污染的训练样本而言，支持向量机的性能就有可能会减弱，原因在于合页损失函数(hinge loss)对错误标注样本敏感，使得支持向量机无法在标签噪声环境下得到较好的表现。

对于许多实际应用中的数据来说，它们的标签常常会因为某些原因被污染，如被人工错误标注，这类型的污染被称为标签噪声，标签噪声是分类问题中的有待解决的重要问题之一。

目前已有许多的方法被提出用于处理标签噪声问题，比较著名的方法有集成学习方法，如bagging和boosting，但这类方法涉及多个优化问题的求解。求解关于鲁棒损失函数的优化问题是另一种处理标签噪声的方法，与前一种方法不同的是，这种类型的方法仅仅需要求解一个优化问题。

从极大似然估计的角度来看，0-1损失函数是处理分类问题最理想的损失函数，Frénay B与Verleysen M在Classification in the presence of label noise：asurvey.IEEE transactions on neural networks and 1earning systems，2014，25(5)：845-869.指出0-1 损失函数对标签噪声具有鲁棒性。然而，有关0-1损失函数的优化问题的存在性仍未被证明。因此，许多鲁棒损失函数被用于代替0-1损失函数应用于分类问题，应用得较为广泛的有Wang L等人在Hybrid huberized support vector machines formicroarrav classification and gene selection.Bioinformatics，2008，24(3)： 412-419提出由连续分段函数定义的huberized hinge loss，与平方合页损失函数(squarehinge loss)相比，其对误分类样本的敏感度有所降低。近年来，许多改善支持向量机鲁棒性的损失函数也被提出，如Nie F等人在Multiclass capped lp-norm SVM for robustclassifications.The 31st AAAI Conference on Artificial Intelligence(AAAI)，SanFrancisco，USA.2017提出的Capped l_p- hinge loss，如果误分类样本距离其对应边界的距离超过阈值时，损失函数的值不再变化；Huang X等人在Ramp loss linear programmingsupport vector machine.Journal of Machine Learning Research， 2014，15(1)：2185-2211应用的Ramp loss等。基于这些损失函数设计的分类器都具有一定的鲁棒性。但由于这类型损失函数对误分样本具有平滑作用，使得训练样本的离散性不能够被保留。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810310185.4/2.html，转载请声明来源钻瓜专利网。

上一篇：一种数据处理的方法、装置、终端设备及存储介质
下一篇：叶片病害的识别方法和系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于l0-合页损失函数的鲁棒分类方法在审

专利文献下载

[发明专利]一种基于l₀-合页损失函数的鲁棒分类方法在审