[发明专利]用于图像分类的方法和系统有效
| 申请号: | 201480083906.2 | 申请日: | 2014-12-10 |
| 公开(公告)号: | CN107004142B | 公开(公告)日: | 2018-04-17 |
| 发明(设计)人: | 王晓刚;李鸿升;赵瑞 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
| 主分类号: | G06K9/66 | 分类号: | G06K9/66 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司11204 | 代理人: | 王达佐,王艳春 |
| 地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 图像 分类 方法 系统 | ||
技术领域
本申请涉及用于图像分类的方法及系统。
背景技术
逐像素分类的目标是将图像中的所有像素分类成不同的类别。逐像素分类任务包括图像分割和对象检测,这需要将图像分块输入到分类器中并且输出中心像素的类别标签。
卷积神经网络(CNN)是可训练的多级前馈神经网络,已经被广泛地研究,以提取用于图像分类任务的良好多层级特征表示。每一层的输入和输出被称为特征图。CNN一般包括卷积层、池化层和非线性层。卷积层利用3D滤波器组对输入特征图进行卷积操作,以生成输出特征图。每个滤波器在输入特征图的所有位置提取相同类型的局部特征。池化层降低特征图的分辨率,以使输出特征图对输入偏移和失真不太敏感。最常用的是最大池化和平均池化。非线性层是应用于特征图的每个元素的逐点非线性函数。
在利用多层卷积网络提取特征之后,增加具有最终分类器的全连接层从而输出类别预测。在给定训练样本和它们的标签的情况下,以端对端监督方式通过将训练数据上的损失函数最小化来学习CNN的参数。使用前向和反向传播对输入样本进行类别预测并且分别基于预测误差来更新CNN参数。
然而,前向和反向传播最初是为整个图像分类设计的。以逐个分块扫描的方式直接将它应用于逐像素分类效率极低,因为像素的周围分块具有较大重叠,从而导致很多冗余的计算。
发明内容
目前已经有研究针对如何消除基于CNN的逐像素分类中的前向和反向传播的所有冗余计算,并且取得了显著进展。
在本申请的一方面,公开用于图像分类的设备。该设备可以包括:转换器,其被用于转换卷积神经网络,该卷积神经网络具有多个卷积层和连接到卷积层的多个池化层。该转换器可以包括:第一转换单元,其被配置成将全零行和列插入到卷积层中的每个的卷积核,使得卷积核中的每两个邻近元素彼此分开;以及第二转换单元,其被配置成将无掩蔽的行和列插入到每个池化层的池化核,使得池化核中的每两个邻近元素彼此分开。该设备还可以包括:前向传播器,其被配置成将图像馈送到转换后的卷积神经网络中,以预测图像中的所有像素的类别。
在一个实施例中,该设备还可以包括反向传播器。反向传播器可被配置成更新转换后的卷积神经网络中的卷积核的参数。
在一个实施例中,该设备还可以包括选择器。选择器可被配置成选择感兴趣像素的误差,所述误差反向传播通过转换后的卷积神经网络,以更新卷积核的参数。
本申请的另一方面公开了用于图像分类的方法。该方法可包括:转换卷积神经网络,该卷积神经网络具有多个卷积层和连接到卷积层的多个池化层;以及将图像馈送到转换后的卷积神经网络中,以预测图像中的所有像素的类别。转换的步骤可包括:将全零行和列插入到每个卷积层的卷积核,使得卷积核中的每两个邻近元素彼此分开;以及将无掩蔽的行和列插入到每个池化层的池化核,使得池化核中的每两个邻近元素彼此分开。
在一个实施例中,该方法还可以包括更新转换后的卷积神经网络中的卷积核的参数的步骤。
在一个实施例中,该方法还可以包括选择感兴趣像素的误差,并且将误差反向传播通过转换后的卷积神经网络,以更新卷积核的参数的步骤。
附图说明
下文参考附图描述本发明的示例性非限制实施例。附图是说明性的,并且一般不按确切比例。不同图上的相同或类似元件引用相同的附图标号。
图1是示出根据本申请的一个实施例的示例性设备的示意图。
图2是示出根据本申请的一个实施例的示例性前向传播器的示意图。
图3是示出根据本申请的一个实施例的另一示例性前向传播器的示意图。
图4是示出根据本申请的一个实施例的示例性选择器的示意图。
图5是示出根据本申请的一个实施例的示例性反向传播器的示意图。
图6是示出根据本申请的一个实施例的另一示例性反向传播器的示意图。
图7是示出根据本申请的一个实施例的又一示例性反向传播器的示意图。
图8是示出根据本申请的一个实施例的用于图像分类的示例性方法的示意流程图。
图9是示出根据本申请的一个实施例的用于将原始CNN转换成转换后的CNN的步骤的示意流程图。
图10是示出将全零行和列分别插入到卷积核Wk和池化核Pk的示意图,其中d=2和d=3。
图11是示出根据本申请的一个实施例的用于前向传播的步骤的示意流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480083906.2/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





