[发明专利]用特征上采样网络提高CNN性能的学习方法和装置及用特征上采样网络的测试方法和装置有效
申请号: | 201811169744.0 | 申请日: | 2018-10-08 |
公开(公告)号: | CN109657688B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 金镕重;南云铉;夫硕焄;成明哲;吕东勋;柳宇宙;张泰雄;郑景中;诸泓模;赵浩辰 | 申请(专利权)人: | 斯特拉德视觉公司 |
主分类号: | G06V10/44 | 分类号: | G06V10/44;G06T7/10;G06N3/0464;G06N3/08;G06V10/82;G06N3/084 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 杨佳婧 |
地址: | 韩国庆*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 采样 网络 提高 cnn 性能 学习方法 装置 测试 方法 | ||
本发明公开了一种通过使用特征上采样网络提高CNN的性能的学习方法。该学习方法包括以下步骤:(a)允许下采样块获取下采样图像;(b)允许第(1‑1)至第(1‑k)过滤块中的每一个分别获取第(1‑1)至第(1‑k)特征映射中的每一个;(c)允许应用专用采样块:(i)从其对应的过滤块中接收特定的特征映射,并且(ii)从其之前的上采样块接收另一个具体的特征映射,然后将具体的特征映射的尺寸重新调节为与特定的特征映射的尺寸相同,并且(iii)对特定特征映射和重新调节后的具体的特征映射应用特定操作以生成特定的上采样块的特征映射;并且(d)(i)允许应用块获取应用专用输出,并且(ii)执行第一反向传播处理。
技术领域
本发明涉及一种通过使用特征上采样网络(FUN)提高CNN的性能的学习方法和学习装置,以及使用特征上采样网络的测试方法和测试装置,并且更具体地,涉及包括以下步骤的学习方法以及使用上述学习方法的学习装置、测试方法和测试装置:(a)如果获得输入图像,则所述学习装置允许下采样块通过对所述输入图像应用预定操作以减小其尺寸来获取下采样图像;(b)如果获得所述下采样图像,则所述学习装置允许第(1-1)至第(1-k)过滤块中的每一个通过对所述下采样图像应用一个或多个卷积运算来分别获取第(1-1)至第(1-k)特征映射中的每一个;(c)所述学习装置(I)允许所述第(2-1)上采样块(i)从所述下采样块接收所述下采样图像,(ii)从第(2-2)上采样块接收第(2-2)特征映射,然后将所述第(2-2)特征映射的尺寸重新调节为与所述下采样图像的尺寸相同,并且(iii)对所述下采样图像和所述第(2-2)重新调节后的特征映射应用特定操作,从而获取第(2-1)特征映射,并且所述学习装置(II)允许第(2-(M+1))上采样块(i)从第(1-M)过滤块接收第(1-M)特征映射,(ii)从第(2-(M+2))上采样块接收第(2-(M+2))特征映射,然后将所述第(2-(M+2))特征映射的尺寸重新调节为与所述第(1-M)特征映射的尺寸相同,并且(iii)对所述第(1-M)特征映射和所述第(2-(M+2))重新调节后的特征映射应用特定操作,以便生成所述第(2-(M+1))特征映射,从而获取第(2-k)至第(2-2)特征映射,其中M是大于或等于1的整数;并且(d)所述学习装置(i)允许应用块通过对所述(2-k)至(2-1)特征映射的至少一部分应用应用专用操作来获取应用专用输出,并且(ii)允许应用专用损失块通过将所述应用专用输出与GT进行比较来获取损失;并从而在第一反向传播处理的过程中通过使用所述损失来调节所述应用块、所述第(2-k)至第(2-1)上采样块和所述第(1-1)至第(1-k)过滤块的至少一部分的参数。
背景技术
深度卷积神经网络,或深度CNN,是深度学习领域显著发展的核心。尽管CNN20世纪90年代已被用于解决字符识别问题,但直到最近CNN才在机器学习中得到广泛应用。由于最近的研究,CNN已经成为机器学习领域非常有用且强大的工具。例如,在2012年,CNN在年度软件竞赛“ImageNet大规模视觉识别挑战赛”中的表现明显优于其竞争对手,并赢得了比赛。
图1是根据现有技术的采用CNN的装置的框图。
参考图1,装置100包括特征计算块101、应用块102和应用专用损失块103。
在接收到输入图像时,包括一个或多个卷积块和特征金字塔网络(FPN)块的特征计算块101可以从输入图像生成特征映射。作为参考,每个卷积块可以包括各种层,比如卷积层、池化层(pooling layer)、完全连接层和激活层,例如ReLU层。
应用块102可以利用所生成的特征映射的至少一部分来获取应用专用输出。例如,如果应用块102执行图像分割的功能,则应用块102确定输入图像中的每个像素的类型,例如,人、汽车、前景或背景,并且使同种类型的像素聚类(cluster)以生成标签图像。或者,如果应用块102执行对象检测的功能,则可以输出关于输入图像中的对象的类型、位置和尺寸的信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于斯特拉德视觉公司,未经斯特拉德视觉公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811169744.0/2.html,转载请声明来源钻瓜专利网。