[发明专利]一种基于深度学习的图像识别方法在审
| 申请号: | 201711084130.8 | 申请日: | 2017-11-07 |
| 公开(公告)号: | CN107909095A | 公开(公告)日: | 2018-04-13 |
| 发明(设计)人: | 胥杏培;宋余庆;陆虎 | 申请(专利权)人: | 江苏大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 212013 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 图像 识别 方法 | ||
技术领域
本发明所属的技术领域为图像分析领域,具体为一种基于深度学习的图像识别方法。
背景技术
机器学习方法被广泛用于图像分析,通过在给定数据集上训练模型来完成新数据上的特定任务,比如分类、识别和分割等。常用的算法有支持向量机(SVM),隐马尔科夫(HMM)以及人工神经网络等。然而,传统的机器学习算法需要利用先验知识从原始数据中人工提取特征,从而训练模型。由于特征选取难度较大,模型可能存在过拟合问题,泛化能力难以保证;另一方面,传统模型难以适应大规模数据集,模型可扩展性差。
深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习。深度学习是一种数据驱动型模型,能够模拟人脑视觉机理自动地学习到数据各个层次的抽象特征,从而更好地反映数据的本质特征。深度学习模型在各个领域的良好效果引发了在更多领域利用该技术进行数据挖掘和分析的热潮,在医学和生物认知领域也引起了重视。目前深度学习已经开始涉足医学图像的病变分类、分割、识别以及大脑功能研究等方面。深度学习创业公司Enlitic研制基于深度学习的癌症检测系统,在胸部CT图像上的肺癌检出率超过医生。IBM提出Watson for Oncology,通过学习大量数据和经验,从而分析病人的医学信息,帮助医生制定可靠的医疗方案。研发出AlphaGo的Google子公司DeepMind近日宣布DeepMind Health项目,使用深度学习进一步开发有效的医疗保健科技。
现有技术的不足之处:
(1)需要手动提取适合医学图像的特征,但是针对不同的医学图像提取合适的特征需要花费大量的时间,并且需要大量的相关领域的经验。
(2)为了得到更好的深度学习模型,需要大量的训练数据,数据量过小可能导致模型的过拟合现象。因此本发明中提出了一种良好的扩充数据集的方法。结合本发明设计的框架,能够在小规模的数据集上取得较好的结果
发明内容
本发明的目的在于使用卷积神经网络,训练图像的深度学习模型,提取图像的深度学习特征并且构建成数据库,最后通过SVM对特征进行分类识别,每个过程包含若干个步骤,具体步骤如下:
步骤1,采集和扩充图像数据集:对有限的图像进行预处理,对图像的样本进行扩充;
步骤2,设计卷积神经网络:所述卷积神经网络模型是在现有的VGG-16模型的基础上利用卷积层代替全连接层构建;
步骤3,训练卷积神经网络:采用反向传播算法和随机梯度下降方法,根据前向传播的loss值的大小,来进行反向传播迭代更新每一层的权重,直到模型的loss值趋向于收敛时,停止训练模型,得到深度学习模型;
步骤4,提取图像的特征:将数据集中的每一幅图像输入到步骤3所述的深度学习模型中,针对输入的图像,在图像的倒数第二层全卷积层提取深度学习特征;
步骤5,识别图像:对于给定任意一幅待识别的图像,输入到训练好的深度学习模型中,提取样本的深度学习特征,通过两次训练的方法来有效的判别该图像属于哪个类别。
进一步,所述步骤1中数据集的采集和扩充的方法包括以下方法中的至少一种:
镜像翻转:将原始图像进行左右反转,将数据扩充2倍;
添加椒盐噪声:将原始像中添加一些椒盐噪声,将数据扩充2倍;
分割图:将原图中的目标区域分割出来,其他区域用0代替,将数据扩充2倍。
添加光照:对图像进行旋转90度,180度,270度,将数据扩充3倍。
进一步,所述步骤2的卷积神经网络模型由输入层,隐藏层,输出层组成:
所述输入层为步骤1所提出的图像通过扩充后得到的数据集,将数据集转化为lmdb格式作为该模型的输入;
所述隐藏层包括卷积层和池化层;所述卷积层的第一层中卷积核的大小设为1*1,在倒数第二层采用全卷积代替全连接,将特征维度降低至全连接的一半。所述池化层采用2*2的卷积核,在所述模型的前五层和卷积层组合使用;
所述输出层与最后一个全卷积层相连接,输出的维数与待识别的图像的类别数相等。
进一步,步骤3训练卷积神经网络的过程中使用迁移学习的方法,将预先训练好的VGG模型的权重迁移至所述卷积神经网络模型上。
进一步,所述步骤3所述的训练卷积神经网络还包括:在Ubuntu系统的caffe框架下,将图像数据分成训练集,训练集标签,测试集,测试集标签。
进一步,所述步骤4还包括:将数据集中的每一个样本对应一行向量,并且贴上对应的标签,构建成一个深度学习特征的数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711084130.8/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





