[发明专利]基于设置正负例错分值的百分比的可控置信机器算法在审

申请号：	201510202142.0	申请日：	2015-04-24
公开（公告）号：	CN104820838A	公开（公告）日：	2015-08-05
发明（设计）人：	蒋方纯	申请（专利权）人：	深圳信息职业技术学院
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	深圳中一专利商标事务所 44237	代理人：	刘朗星
地址：	518029 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于设置正负分值百分比可控置信机器算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于机器学习领域，尤其涉及一种基于设置正负例错分值的百分比的可控置信机器算法。

背景技术

置信机器就是在机器学习的过程中对学习的结果同时提供一个可信的程度判断或可以对学习结果进行预设的分类处理。置信机器在医疗诊断等高风险的应用领域有着重要的现实意义。置信机器是机器学习领域中研究时间不长的一个分支，实现置信机器学习的理论基础与方法并不多，有直接构造置信度的方法，有间接构造置信度的方法，有通过设置拒绝选项，可以进行预设的分类处理，来排除低可信的部分，从而提高剩余部分的可信度，实现置信分类，并对错分率可控。

2005年由Vladimir Vovk，Alexander Gammerman，Glenn Shafer出版了关于信任机器学习的专著《Algorithmic Learning in a Random World》。2004年邱德红等在计算机研究与发展期刊Vol.41，No.9中发表了《基于算法随机性理论和奇异描述的置信学习机器》，根据Kolmogorov算法随机性理论，为学习机器建立了一种置信机制，描述了置信学习机器的算法。

现有的方案有以下几个问题：

(1)置信控制的精度不够。目前上述的置信机器学习方法是通过设置Bin的方法来计算错分率，并根据计算结果设置阈值，但最后正负例正确率控制与当初预设值比较，有时差距会很大。

(2)置信控制不够灵活。设置Bin的方法有一定的限制，不能任意设置数值，进行灵活多变的控制，满足不同的要求。

发明内容

本发明实施例的目的在于提供一种基于设置正负例的错分率百分比的可控置信机器算法，其解决现有技术的置信控制的精度不够，置信控制不够灵活的问题。

本发明实施例是这样实现的，一方面，公开了一种基于设置正负例错分值的百分比的可控置信机器算法，所述方法包括如下步骤：

接收二元训练数据样本和二元训练样本标签构成的训练集Train Set；

根据所述训练集Train Set训练二元分类器，得到二元分类器参数值；

根据所述二元分类器在所述训练集Train Set上分类，并将分类结果转换成输出值Output score；

从原点出发向左，通过逐步增加第一距离的步长，以及通过以原点出发，向右逐步增加第二距离的步长，确定满足要求的阈值范围(-t2,t1)，其中，所述第一距离为原点至正例错分的最小的Score值的距离的第一预定比例值，所述第二距离为原点至负例错分的最大的Score值的距离的第二预定比例值；

获取未知二元样本，根据所述二元分类器对未知二元样本进行分类，并将分类结果转换成输出值Output score；

如果所述未知二元样本的输出值Output score属于该阈值范围，将未知样本分配到拒绝域，如未知二元样本的输出值Output Score不属于该阈值范围，将未知样本分配到接受域。

优选的，所述从原点出发向左，通过逐步增加第一距离的步长，以及通过以原点出发，向右逐步增加第二距离的步长，确定满足要求的阈值范围步骤为：

根据所述第一距离、第二距离的步长和预设的正确率，以原点为基准，以第一距离的步长逐步向左、以第二距离的步长向右逐步移动阈值范围，当移动的阈值范围对应的正确率大于预设的正确率时，确定阈值(-t2，t1)为未知二元样本对应的阈值范围。

在本发明实施例中，本发明提供的技术方案通过分别设置正负例错分率的百分比作为移动步长，可以根据需要灵活设置数值，控制灵活，而且通过调整所述百分比值控制步长，可以实现更高精度的置信控制。

附图说明

图1是本发明提供的一种基于设置正负例错分值的百分比的可控置信机器算法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明具体实施方式提供一种基于设置正负例错分值的百分比的可控置信机器算法，上述方法由置信机器执行，该方法如图1所示，包括如下步骤：

在步骤S101中，接收二元训练数据样本和二元训练样本标签构成的训练集Train Set；

在步骤S102中，根据所述训练集Train Set训练二元分类器，得到二元分类器参数值；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳信息职业技术学院，未经深圳信息职业技术学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510202142.0/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于设置正负例错分值的百分比的可控置信机器算法在审

专利文献下载