[发明专利]基于主动学习的MADALINE神经网络样本选择方法及系统在审

申请号：	201510891245.2	申请日：	2015-12-07
公开（公告）号：	CN105550745A	公开（公告）日：	2016-05-04
发明（设计）人：	储荣	申请（专利权）人：	河海大学
主分类号：	G06N3/08	分类号：	G06N3/08
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	李玉平
地址：	211100 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于主动学习 madaline 神经网络样本选择方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及MADALINE神经网络设计时的学习样本的选择方法及其系统，尤其涉及可有效提高神经网络分类效率的基于主动学习的学习样本选择方法及其装置，属于智能科学与技术中的机器学习技术领域。

背景技术

MADALINE神经网络是一种输入、输出和激活函数的输入输出都是离散值的一类神经网络。在设计MADALINE神经网络分类器时，训练样本的标记一般是由专家来完成的，这往往要花费大量的金钱和时间代价。以往选择需要标记的样本时，一般是从已获得的无标号样本中随机抽取的。这样训练出一个分类器往往需要大量的标记过的样本，需要花费很大的人力物力，而且容易使得训练时间延长。

主动学习技术是将无标记的样本经过某种准则的筛选，得到的样本使用人工进行标记。这些标记的样本加入到训练集中。分类器经过这些训练集样本的训练，能更好地改进其性能。主动学习技术的关键是如何构造一个好的筛选准则，使得使用尽量少的标记样本得到尽量好的分类器分类性能。

主动学习算法中比较有影响的筛选准则主要有：1)不确定性采样准则：在这个准则中，设计者认为根据信息论的知识，样本的香农熵越大说明样本所含的信息量越大。选择信息量越大的样本对改进分类器的性能越好。而样本的熵越大说明这个样本的类别越不确定，故名不确定性采样。在这个指导思想下又衍生出很多种算法，比如选择最靠近边界的样本算法，选择各个类别后验概率差最小算法等等。2)委员会机器准则：使用已有的训练集利用不同的复杂度训练出一族分类器，由这一族分类器对未标记的样本分别进行分类，挑选这些分类器分类标号最不确定的样本。3)期望误差减少法：这种算法以减少分类误差为准则挑选样本。相对来讲这个算法对减少分类误差最为直接，也比较容易理解。但这种算法复杂度特别高，对于很多比较复杂的问题不适用。上述这些准则都能应用到神经网络分类器中。

以上筛选准则大致上集中在样本的不确定性或者分类器的误差方面。能不能在其它方面构造准则，实现较好的筛选效果？

发明内容

发明目的：本发明的首要目的在于提供一种以MADALINE神经网络敏感性为基准的主动学习方法和系统，从而有效提高MADALINE神经网络分类器的分类性能。

技术方案：一种基于主动学习的MADALINE神经网络样本选择方法，包括以下步骤：

1)从未经标记的训练样本中随机选取一小部分样本进行标记以形成训练样本集；

2)利用训练样本集训练神经网络，得到经过训练的分类器；

3)计算未经标记的样本在已有分类器下的敏感性，利用敏感性得到一批在已有分类器中比较敏感的样本；

4)将所得比较敏感的样本加入到已有训练样本集中，得到新的训练样本集，并利用新的训练样本集训练神经网络，得到新的分类器；

5)利用测试样本集对步骤4)得到的新的分类器进行测试，若测试结果满足用户要求则结束样本选择，若所述测试结果不满足用户要求则回到步骤3)，重复步骤3)～5)，直到分类器性能达到要求为止。

一种基于主动学习的MADALINE神经网络样本选择系统，包括：

训练样本集形成模块，其请求用户从未经标记的训练样本中随机选取一小部分样本进行标记以形成训练样本集；

训练模块，其利用已有训练样本集训练神经网络，得到经过训练的分类器；