[发明专利]多通道卷积层处理方法和装置有效
申请号: | 201410274196.3 | 申请日: | 2014-06-18 |
公开(公告)号: | CN104077233B | 公开(公告)日: | 2017-04-05 |
发明(设计)人: | 吴韧;李士刚;都大龙;刘文志 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F12/02 | 分类号: | G06F12/02 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通道 卷积 处理 方法 装置 | ||
技术领域
本发明涉及信息处理技术领域,尤其涉及一种单通道卷积层处理方法和装置、多通道卷积层处理方法和装置。
背景技术
卷积神经网络在多种应用,尤其是图像、视频应用中被广泛采用。其中,卷积层是卷积神经网络中的核心计算部分,在卷积层部分,以图像为例,多个滤波器分别作用于图像实现卷积运算。相关技术中,卷积运算主要通过以下两种方式实现:(1)滤波器直接作用于输入图像上进行卷积运算,其中,图形处理器(Graphic Processing Unit,GPU)线程组为二维格式,X维以全部图像的数量进行划分,Y维以全部滤波器的数量进行划分,每个图形处理器线程负责计算多个滤波器对多个图像的卷积,但只计算一个数据点对应的卷积核。(2)将全部图像数据按滤波器大小进行逐数据点展开,从而将卷积运算转换为稠密矩阵乘法运算。
但是,相关技术存在以下问题:前一种实现方式中,相邻输出数据点对应的输入数据点之间数据具有重叠,例如,步长为1、滤波器大小为5*5的卷积核,相邻输出数据点的输入数据点有4/5的数据重叠,导致大量数据被重复读入到本地存储中,影响性能。后一种实现方式中,需要将图像展开后存储,因此需要的存储量和卷积核的大小成正比,例如,5*5的滤波器需要25倍的额外内存,而9*9的滤波器则需要81倍的额外内存,而在实际应用中,滤波器可能会更大,图形处理器的全局存储开销也将大大增加。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种单通道卷积层处理方法。该方法在存储空间利用上能够达到最优,增加了本地存储器的数据重用,增加了性能功耗比。
本发明的第二个目的在于提出一种单通道卷积层处理装置。
本发明的第三个目的在于提出一种多通道卷积层处理方法。
本发明的第四个目的在于提出一种多通道卷积层处理装置。
为了实现上述目的,本发明第一方面实施例的单通道卷积层处理方法,包括:将待处理数据划分为多个数据块;多个图形处理器线程组将所述多个数据块读取到所述多个图形处理器线程组的本地存储器中;所述多个图形处理器线程组将多个过滤器读取到所述多个图形处理器线程组的本地存储器中;以及所述多个图形处理器线程组中的多个线程同时计算所述多个数据块中对应的数据点与所述多个过滤器的卷积。
本发明实施例的单通道卷积层处理方法,至少具有以下有益效果:(1)直接在输入数据上进行卷积,无需进行数据的逐数据点展开,从而无须额外的内存开销,在存储空间利用上能够达到最优;(2)同一图形处理器线程组中的图形处理器线程计算连续的输出数据点并使用连续的输入数据点,增加了本地存储器的数据重用,并将所需的待处理数据和卷积核数据临时保存在高速的图形处理器的本地存储器中,降低了低速的图形处理器全局存储器的读取次数,从而获得很高的性能;另外还减少了数据的移动,又大大降低了功耗,增加了性能功耗比;(3)在划分时,可以使用寄存器分块方法来减少访存计算比,虽然相关技术中也可利用寄存器分块方法,但是由于其数据组织方式导致其产生效果的条件比较严格。
为了实现上述目的,本发明第二方面实施例的单通道卷积层处理装置,包括:划分模块,用于将待处理数据划分为多个数据块;第一读取模块,用于通过多个图形处理器线程组将所述多个数据块读取到所述多个图形处理器线程组的本地存储器中;第二读取模块,用于通过所述多个图形处理器线程组将多个过滤器读取到所述多个图形处理器线程组的本地存储器中;以及计算模块,用于通过所述多个图形处理器线程组中的多个线程同时计算所述多个数据块中对应的数据点与所述多个过滤器的卷积。
本发明实施例的单通道卷积层处理装置,至少具有以下有益效果:(1)直接在输入数据上进行卷积,无需进行数据的逐数据点展开,从而无须额外的内存开销,在存储空间利用上能够达到最优;(2)同一图形处理器线程组中的图形处理器线程计算连续的输出数据点并使用连续的输入数据点,增加了本地存储器的数据重用,并将所需的待处理数据和卷积核数据临时保存在高速的图形处理器的本地存储器中,降低了低速的图形处理器全局存储器的读取次数,从而获得很高的性能;另外还减少了数据的移动,又大大降低了功耗,增加了性能功耗比;(3)在划分时,可以使用寄存器分块方法来减少访存计算比,虽然相关技术中也可利用寄存器分块方法,但是由于其数据组织方式导致其产生效果的条件比较严格。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410274196.3/2.html,转载请声明来源钻瓜专利网。