[发明专利]基于设置正负例错分值的百分比的可控置信机器算法在审
申请号: | 201510202142.0 | 申请日: | 2015-04-24 |
公开(公告)号: | CN104820838A | 公开(公告)日: | 2015-08-05 |
发明(设计)人: | 蒋方纯 | 申请(专利权)人: | 深圳信息职业技术学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 刘朗星 |
地址: | 518029 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 设置 正负 分值 百分比 可控 置信 机器 算法 | ||
技术领域
本发明属于机器学习领域,尤其涉及一种基于设置正负例错分值的百分比的可控置信机器算法。
背景技术
置信机器就是在机器学习的过程中对学习的结果同时提供一个可信的程度判断或可以对学习结果进行预设的分类处理。置信机器在医疗诊断等高风险的应用领域有着重要的现实意义。置信机器是机器学习领域中研究时间不长的一个分支,实现置信机器学习的理论基础与方法并不多,有直接构造置信度的方法,有间接构造置信度的方法,有通过设置拒绝选项,可以进行预设的分类处理,来排除低可信的部分,从而提高剩余部分的可信度,实现置信分类,并对错分率可控。
2005年由Vladimir Vovk,Alexander Gammerman,Glenn Shafer出版了关于信任机器学习的专著《Algorithmic Learning in a Random World》。2004年邱德红等在计算机研究与发展期刊Vol.41,No.9中发表了《基于算法随机性理论和奇异描述的置信学习机器》,根据Kolmogorov算法随机性理论,为学习机器建立了一种置信机制,描述了置信学习机器的算法。
现有的方案有以下几个问题:
(1)置信控制的精度不够。目前上述的置信机器学习方法是通过设置Bin的方法来计算错分率,并根据计算结果设置阈值,但最后正负例正确率控制与当初预设值比较,有时差距会很大。
(2)置信控制不够灵活。设置Bin的方法有一定的限制,不能任意设置数值,进行灵活多变的控制,满足不同的要求。
发明内容
本发明实施例的目的在于提供一种基于设置正负例的错分率百分比的可控置信机器算法,其解决现有技术的置信控制的精度不够,置信控制不够灵活的问题。
本发明实施例是这样实现的,一方面,公开了一种基于设置正负例错分值的百分比的可控置信机器算法,所述方法包括如下步骤:
接收二元训练数据样本和二元训练样本标签构成的训练集Train Set;
根据所述训练集Train Set训练二元分类器,得到二元分类器参数值;
根据所述二元分类器在所述训练集Train Set上分类,并将分类结果转换成输出值Output score;
从原点出发向左,通过逐步增加第一距离的步长,以及通过以原点出发,向右逐步增加第二距离的步长,确定满足要求的阈值范围(-t2,t1),其中,所述第一距离为原点至正例错分的最小的Score值的距离的第一预定比例值,所述第二距离为原点至负例错分的最大的Score值的距离的第二预定比例值;
获取未知二元样本,根据所述二元分类器对未知二元样本进行分类,并将分类结果转换成输出值Output score;
如果所述未知二元样本的输出值Output score属于该阈值范围,将未知样本分配到拒绝域,如未知二元样本的输出值Output Score不属于该阈值范围,将未知样本分配到接受域。
优选的,所述从原点出发向左,通过逐步增加第一距离的步长,以及通过以原点出发,向右逐步增加第二距离的步长,确定满足要求的阈值范围步骤为:
根据所述第一距离、第二距离的步长和预设的正确率,以原点为基准,以第一距离的步长逐步向左、以第二距离的步长向右逐步移动阈值范围,当移动的阈值范围对应的正确率大于预设的正确率时,确定阈值(-t2,t1)为未知二元样本对应的阈值范围。
在本发明实施例中,本发明提供的技术方案通过分别设置正负例错分率的百分比作为移动步长,可以根据需要灵活设置数值,控制灵活,而且通过调整所述百分比值控制步长,可以实现更高精度的置信控制。
附图说明
图1是本发明提供的一种基于设置正负例错分值的百分比的可控置信机器算法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明具体实施方式提供一种基于设置正负例错分值的百分比的可控置信机器算法,上述方法由置信机器执行,该方法如图1所示,包括如下步骤:
在步骤S101中,接收二元训练数据样本和二元训练样本标签构成的训练集Train Set;
在步骤S102中,根据所述训练集Train Set训练二元分类器,得到二元分类器参数值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳信息职业技术学院,未经深圳信息职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510202142.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:适用于PCB制造的追溯系统
- 下一篇:一种检测视频险情的方法及装置