[发明专利]一种基于多层极速学习机的风景图片多标记方法及系统在审

专利信息
申请号: 201610513890.5 申请日: 2016-06-30
公开(公告)号: CN107563398A 公开(公告)日: 2018-01-09
发明(设计)人: 丁世飞;张楠 申请(专利权)人: 中国矿业大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/08;G06N99/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 221116 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 多层 学习机 风景图片 标记 方法 系统
【说明书】:

技术领域

发明涉及模式识别和机器学习领域,具体涉及一种基于多层极速学习机的风景图片多标记方法及系统。

背景技术

最近,多标签学习已经成为机器学习领域的重要课题。在多标签学习中,每一个样本都与多个标签相关联,并且学习的目标是通过分析训练集预测未接触过样本的标签集。这样的学习问题也适用于许多实际应用。例如,自然风景图像对应的标签有沙漠、山、海、日落、树木,每一副自然风景图像可能对应这样多个标签。

多标记学习是日常生活和工业领域处理一些数据和信息的核心技术,比如:自然风景分类、文本分类、基因片段分类等等。自然风景分类作为多标记学习在现实生活中的一个应用,同时也是模式识别下的一个传统研究领域,不仅具有重大的现实意义和应用价值,还有着极其关键的理论价值。在实际应用中尤其在网页浏览时对图片的精度有相当苛刻的要求,每幅图片标签的正确与否就可能造成难以估量的损失。

针对多标记学习的径向基神经网络是专门为处理多标记数据的神经网络,被认为是一种有效的多标记神经网络的学习方法,近年来在多标记学习领域取得了巨大的成功。由于针对每种标签对应的图像聚类学习网络的权值,保持网络深层结构的同时又大大提高了准确度,使模型具有良好的泛化能力又较容易训练。

每幅图片的大小不一定相同,首先要对图片预处理得到维数一致的属性。针对多标记学习的径向基神经网络直接对数据进行分类,而在经典的模式识别中,一般是事先提取特征。提取到的特征的不同对分类性能影响很大,甚至提取的特征的顺序也会影响最后的分类性能。多层极速学习机是一种有效且快速的深度神经网络学习方法,通过堆叠极速学习机-自动编码器算法构建多层神经网络模型,它不仅具有深度学习的优点,还有较快的学习速度。多层极速学习机不用对数据进行复杂的迭代操作,可以方便地把数据作为输入,通过大量的数据一次性学习得到有效的特征。然后,我们可以利用针对多标记学习的径向基神经网络对多层极速学习机学习的特征进行分类,从而得到每幅图片对应的标签。

发明内容

为了解决上述问题,本发明提出一种基于多层极速学习机的风景图片多标记方法及系统,直接将图片预处理后的数据作为输入,训练得到一个多层极速学习机神经网络,然后利用针对多标记学习的径向基神经网络对多层极速学习机学习的特征进行分类,从而得到每幅图片对应的标签,明显提高了识别的正确率和效率。

本发明是通过以下方案实现的:

本发明涉及一种基于多层极速学习机的风景图片多标记方法,通过构建带标签的训练集作为样本集对多层极速学习机-径向基神经网络进行训练,并将训练好的神经网络处理待识别的图片,最后根据神经网络的输出向量判断识别结果。

本发明具体步骤如下:

步骤1,制作训练集并将图片做预处理:根据许多大小不一致的彩色风景图片,制作自然风景图像的训练集和标签集,训练集为经过预处理后的数据,首先将每幅彩色图像用7*7的网格,然后计算每个网格内三基色的均值与方差,把每幅图像转化为49*3*2=294维的向量;

步骤2,构造三隐层的多层极速学习机-径向基神经网络:输入层的数据是每幅图像预处理完的292维向量,前两个隐层结点数人为指定为300(其权值用极速学习机-自动编码器学习),此时结束了特征提取的过程,随后用针对多标记学习的径向基神经网络对特征进行分类,其首先把每种类别对应特征数之和的十分之一作为最后一层隐层结点数,最终得到一个5*1的列向量输出;

步骤3,训练多层极速学习机-径向基神经网络,网络的基本参数和规格设置完成后,首先利用极速学习机-自动编码器学习前两层隐层的连接权值,然后用K均值算法计算得到最后一层隐层对应的权值,最后结合最小二乘方法计算输出权值,具体过程如下:

步骤3.1:计算输入层与第一层隐层间的权值:建立一个极速学习机-自动编码器的网络模型,其输入与输出都是预处理完的数据,其隐层结点数为多层神经网络第一层隐层的结点数300,网络的输入权值随机确定,用最小二乘方法一次计算出输出权值,最后此输出权值的转置对应的就是输入层与第一层隐层间的权值;

步骤3.2:计算第一层隐层与第二层隐层间的权值:同样建立一个极速学习机-自动编码器的网络模型,其输入与输出都是第一层隐层的输出,其隐层结点数为多层神经网络第二层隐层的结点数300,网络的输入权值随机确定,用最小二乘方法一次计算出输出权值,最后此输出权值的转置对应的就是第一层隐层与第二层隐层间的权值;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610513890.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top