[发明专利]基于主动学习的MADALINE神经网络样本选择方法及系统在审
| 申请号: | 201510891245.2 | 申请日: | 2015-12-07 |
| 公开(公告)号: | CN105550745A | 公开(公告)日: | 2016-05-04 |
| 发明(设计)人: | 储荣 | 申请(专利权)人: | 河海大学 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
| 地址: | 211100 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 主动 学习 madaline 神经网络 样本 选择 方法 系统 | ||
技术领域
本发明涉及MADALINE神经网络设计时的学习样本的选择方法及其系统, 尤其涉及可有效提高神经网络分类效率的基于主动学习的学习样本选择方法及 其装置,属于智能科学与技术中的机器学习技术领域。
背景技术
MADALINE神经网络是一种输入、输出和激活函数的输入输出都是离散值 的一类神经网络。在设计MADALINE神经网络分类器时,训练样本的标记一般 是由专家来完成的,这往往要花费大量的金钱和时间代价。以往选择需要标记的 样本时,一般是从已获得的无标号样本中随机抽取的。这样训练出一个分类器往 往需要大量的标记过的样本,需要花费很大的人力物力,而且容易使得训练时间 延长。
主动学习技术是将无标记的样本经过某种准则的筛选,得到的样本使用人工 进行标记。这些标记的样本加入到训练集中。分类器经过这些训练集样本的训练, 能更好地改进其性能。主动学习技术的关键是如何构造一个好的筛选准则,使得 使用尽量少的标记样本得到尽量好的分类器分类性能。
主动学习算法中比较有影响的筛选准则主要有:1)不确定性采样准则:在 这个准则中,设计者认为根据信息论的知识,样本的香农熵越大说明样本所含的 信息量越大。选择信息量越大的样本对改进分类器的性能越好。而样本的熵越大 说明这个样本的类别越不确定,故名不确定性采样。在这个指导思想下又衍生出 很多种算法,比如选择最靠近边界的样本算法,选择各个类别后验概率差最小算 法等等。2)委员会机器准则:使用已有的训练集利用不同的复杂度训练出一族 分类器,由这一族分类器对未标记的样本分别进行分类,挑选这些分类器分类标 号最不确定的样本。3)期望误差减少法:这种算法以减少分类误差为准则挑选 样本。相对来讲这个算法对减少分类误差最为直接,也比较容易理解。但这种算 法复杂度特别高,对于很多比较复杂的问题不适用。上述这些准则都能应用到神 经网络分类器中。
以上筛选准则大致上集中在样本的不确定性或者分类器的误差方面。能不能 在其它方面构造准则,实现较好的筛选效果?
发明内容
发明目的:本发明的首要目的在于提供一种以MADALINE神经网络敏感性 为基准的主动学习方法和系统,从而有效提高MADALINE神经网络分类器的分 类性能。
技术方案:一种基于主动学习的MADALINE神经网络样本选择方法,包括 以下步骤:
1)从未经标记的训练样本中随机选取一小部分样本进行标记以形成训练样 本集;
2)利用训练样本集训练神经网络,得到经过训练的分类器;
3)计算未经标记的样本在已有分类器下的敏感性,利用敏感性得到一批在 已有分类器中比较敏感的样本;
4)将所得比较敏感的样本加入到已有训练样本集中,得到新的训练样本集, 并利用新的训练样本集训练神经网络,得到新的分类器;
5)利用测试样本集对步骤4)得到的新的分类器进行测试,若测试结果满 足用户要求则结束样本选择,若所述测试结果不满足用户要求则回到步骤3), 重复步骤3)~5),直到分类器性能达到要求为止。
一种基于主动学习的MADALINE神经网络样本选择系统,包括:
训练样本集形成模块,其请求用户从未经标记的训练样本中随机选取一小部 分样本进行标记以形成训练样本集;
训练模块,其利用已有训练样本集训练神经网络,得到经过训练的分类器;
判定模块,其计算未经标记的样本在已有分类器下的敏感性,根据计算结果 挑选出一批在已有分类器中比较敏感的样本;
训练样本集更新模块,其将判断模块挑选出的比较敏感的样本加入到已有训 练样本集中,得到新的训练样本集;
测试模块,利用测试样本集对得到的分类器进行测试;若测试结果满足用户 要求则结束样本选择,若所述测试结果不满足用户要求则命令判定模块和训练样 本集更新模块继续执行,直到分类器性能达到要求为止。
本发明采用上述技术方案,具有以下有益效果:
(1)本发明在选择训练样本时采用了一种新颖的主动学习方法,相对于被 动学习算法而言,所需选择标记的训练样本数量大大减少,降低了标记样本所耗 费的时间和代价,且有效提高了前向神经网络的分类效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510891245.2/2.html,转载请声明来源钻瓜专利网。





