[发明专利]面向向量处理器的卷积神经网络运算向量化方法有效
申请号: | 201810687639.X | 申请日: | 2018-06-28 |
公开(公告)号: | CN108985450B | 公开(公告)日: | 2019-10-29 |
发明(设计)人: | 刘仲;田希;陈海燕;郭阳;扈啸;孙永节;陈跃跃;王丽萍 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06N3/063 | 分类号: | G06N3/063;G06F17/15;G06F17/16 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 周长清;胡君 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 缓冲区 卷积运算 运算 卷积神经网络 向量处理器 向量存储器 输入特征 向量数据 向量化 计算效率 结果传输 卷积计算 向量处理 向量阵列 循环执行 依次读取 并行性 卷积核 累加 移动 处理器 存储 | ||
本发明公开一种面向向量处理器的卷积神经网络运算向量化方法,步骤包括:S1.将向量存储器的L1D设置为SRAM方式,并划分为两个缓冲区;S2.依次将输入特征数据传入到两个缓冲区中;S3.依次将卷积核数据传入到向量存储器的向量阵列中;S4.依次开启两个缓冲区的计算,每个缓冲区计算时依次选取一个移动卷积运算窗口进行卷积运算,每个移动卷积运算窗口进行运算时,依次读取一个输入特征数据并扩展为向量数据,各卷积核分别与扩展得到的向量数据进行乘累加;S5.由向量处理部件将卷积计算结果传输到片外存储中;S6.循环执行步骤S2~S5。本发明具有实现方法简单、处理器的并行性以及计算效率高等优点。
技术领域
本发明涉及基于卷积神经网络的深度学习技术领域,尤其涉及一种面向向量处理器的卷积神经网络运算向量化方法。
背景技术
目前基于卷积神经网络(Convolutional Neural Networks,CNN)的深度学习模型在图像识别和分类、机器翻译、文本自动处理、语音识别、自动驾驶、视频分析等各个方面均取得了令人瞩目的成就,成为各领域的研究热点。卷积神经网络是一种深度前馈神经网络,通常由若干个卷积层、激活层和池化层交替组成,其中卷积层通过卷积核与输入特征做卷积运算进行特征提取,从而学习到各个分级的特征。卷积神经网络计算中卷积层计算占据整个网络结构90%的计算量,因而优化和加速卷积层计算成为提升卷积神经网络计算性能的关键。
为了提高卷积神经网络的性能,当前不断的提出越来越深和复杂的网络结构,典型的如LeNet,AlexNet,VGGNet,GoogleNet等,但是随着网络规模的不断扩大,网络参数的规模也越来越大,相应的大规模的卷积神经网络计算对处理器的处理性能和数据存储带宽也越来越高。目前业界普遍是采用高性能GPU来满足卷积神经网络计算要求,甚至通过设计专用的卷积神经网络处理器来加速卷积神经网络计算,但是高性能GPU的计算性能有限,实现卷积神经网络计算效率仍有待提高,尤其是无法满足大规模卷积神经网络的计算性能要求,而设计专用的卷积神经网络处理器成本高,实现复杂。
向量处理器是一种新颖的体系结构,在保持较低功耗的同时,具有强大的计算能力,适合加速卷积神经网络计算。向量处理器通常包括标量处理部件(Scalar ProcessingUnit,SPU)和向量处理部件(Vector Processing Unit,VPU),SPU负责标量任务计算和流控,VPU负责向量计算,提供主要的计算能力,包括若干向量处理单元(Vector ProcessingElement,VPE),每个VPE包含MAC、ALU、BP等多个运算功能部件,SPU和VPU之间提供数据传输和交换机制,实现标、向量数据的共享和通信,向量数据访问单元支持向量数据的Load/Store,提供大容量的专用向量存储器,而不是单核处理器的Cache机制。但是现有的卷积神经网络计算方法并不能直接适用于上述向量处理器中,目前还尚未有有效的方案可以面向向量处理器实现高效的卷积神经网络运算,因而亟需提供一种面向向量处理器的卷积神经网络运算向量化方法,以发挥向量处理器的计算效率,加速卷积神经网络的计算。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现方法简单、卷积运算效率高,且向量处理器并行性以及计算效率高的面向向量处理器的卷积神经网络运算向量化方法。
为解决上述技术问题,本发明提出的技术方案为:
一种面向向量处理器的卷积神经网络运算向量化方法,步骤包括:
S1.将向量存储器的标量存储L1D设置为SRAM方式,并根据向量处理器的体系结构特征参数、输入特征参数和卷积核参数将L1D划分为两个缓冲区以存储输入特征数据;
S2.依次将输入特征数据传入到L1D的两个缓冲区中;
S3.依次将卷积核数据传入到向量存储器的向量阵列中进行存储;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810687639.X/2.html,转载请声明来源钻瓜专利网。