[发明专利]一种在智能设备中对图片进行分类的方法和系统在审
申请号: | 201610186302.1 | 申请日: | 2016-03-29 |
公开(公告)号: | CN107239785A | 公开(公告)日: | 2017-10-10 |
发明(设计)人: | 胡杰;孙刚 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京金阙华进专利事务所(普通合伙)11224 | 代理人: | 陈建春 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 设备 图片 进行 分类 方法 系统 | ||
技术领域
本申请涉及图片处理领域,尤其涉及一种在智能设备中对图片进行分类的方法和系统。
背景技术
随着手机摄像头性能的提升,手机也成为人们日常生活的拍摄工具,随之产生的大量手机相片的管理变得非常困难。目前市场上的各种手机相册也都带有相册自动管理功能,按照时间和地点进行分类展示,方便了用户进行相册的浏览和查找。
然而,现有的手机智能相册大多仅仅依靠时间和地点信息进行管理,也有少量的应用做了相片内容的分类,但是都只有非常抽象的几个类别。如“动物”、“植物”、“食物”、“建筑”、“室内”等。随着手机相册拍摄的内容日益增多并涉及各种物体和场景,仅仅依靠时间、地点和少量类别来进行分类管理是远远不够的。
随着硬件性能的提升带来计算能力的大幅提升,深度学习在计算机视觉领域取得了大幅的进展,尤其是利用卷积神经网络进行图像分类,性能远远超越了传统算法。
然而,针对划分精细、有层级、类别范围覆盖率高的分类体系,能够达到分类性能要求的卷积神经网络的复杂度一般较高,模型也比较大,而且移动平台(Android和ios)的硬件性能远低于电脑,现有模型很难在移动平台上实时处理。
发明内容
本申请的目标在于提供一种在智能设备中对图片进行分类的方法和系统,其在保证分类准确率的同时减少模型的计算量并减小模型的大小,并能够在所有的移动平台上实现实时分类。
本申请的目标由一种在智能设备中对图片进行分类的方法实现,该方法包括:
将待分类的图片输入训练好的卷积神经网络,得到所述图片属于预设的各图片类别的各概率值;
根据所述各概率值,确定所述图片所属的至少一图片类别;
其中,所述卷积神经网络包括多个卷积层、至少一下采样层和一分类器层,所述多个卷积层包括至少一多尺度窗口卷积层;
所述至少一多尺度窗口卷积层中的每一个用两个以上尺度的卷积核对上一层输出的特征图分别进行卷积操作,并将卷积出来的两个以上特征图叠在一起作为输出特征图;
所述分类器层,用于基于在所述图片经过所述多个卷积层和所述至少一下采样层的操作后得到的特征确定所述各概率值。
本申请的目标还由一种在智能设备中对图片进行分类的系统实现,该系统包括:
图片输入及概率值确定模块,用于将待分类的图片输入训练好的卷积神经网络,得到所述图片属于预设的各图片类别的各概率值;
分类模块,用于根据所述各概率值,确定所述图片所属的至少一图片类别;
其中,所述卷积神经网络包括多个卷积层、至少一下采样层和一分类器层,所述多个卷积层包括至少一多尺度窗口卷积层;
所述至少一多尺度窗口卷积层中的每一个用两个以上尺度的卷积核对上一层输出的特征图分别进行卷积操作,并将卷积出来的两个以上特征图叠在一起作为输出特征图;
所述分类器层,用于基于在所述图片经过所述多个卷积层和所述至少一下采样层的操作后得到的特征确定所述各概率值。
使用本发明方法,可针对划分精细、有层级、类别范围覆盖率高的图片类别对图片进行分类,在移动设备上可实现95%以上的分类准确率并可实现实时如1秒24张图片的快速分类;而且,与现有技术的两步完成分类不同,本发明方法可实现“一步”完成图片分类。
附图说明
本发明将在下面参考附图并结合优选实施例进行更完全地说明。
图1为根据本发明方法的一实施例的流程图。
图2为根据本发明系统的一实施例的结构示意图。
为清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所必要的细节,而省略其他细节。
具体实施方式
通过下面给出的详细描述,本发明的适用范围将显而易见。然而,应当理解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说明目的给出。
图1示出了本发明方法的一实施例,其用于在智能设备如手机中对图片进行分类。该实施例的方法开始于步骤S10,将待分类的图片缩放成训练卷积神经网络时采用的尺寸如224×224然后输入训练好的卷积神经网络,该卷积神经网络包括:
第一层:卷积层,卷积核(也称为卷积窗口)大小为7×7,卷积核移动步长为2;对图片进行卷积操作并对卷积后生成的特征图进行Batch Normalization(归一化)处理,再对归一化的特征图采取ReLU激活函数对神经元进行激活。在其它实施例中,可选择其它大小的卷积核和步长,卷积核越大,计算量越大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610186302.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于深度学习姿态估计的无人机交互装置与方法
- 下一篇:一种字符识别方法和装置