[发明专利]一种基于可编程器件的卷积神经网络加速方法与系统有效

申请号：	201710469354.4	申请日：	2017-06-20
公开（公告）号：	CN107392308B	公开（公告）日：	2020-04-03
发明（设计）人：	陆维娜;卢文岩;叶靖;胡瑜;李晓维	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06N3/063	分类号：	G06N3/063
代理公司：	北京律诚同业知识产权代理有限公司 11006	代理人：	祁建国;梁挥
地址：	100080 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于可编程器件卷积神经网络加速方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于可编程器件的卷积神经网络加速方法与系统。包括：对卷积神经网络在可编程器件上的基本结构进行设计，分别建立计算资源、频率关于并行化参数的量化模型；在不同并行化参数下，对实际电压、温度、工艺偏差可达的最高时钟频率进行探索，建立实际可达最高频率与并行化参数的分析模型；以计算吞吐量为优化目标，根据所建立的量化模型与分析模型，对卷积神经网络的设计空间探索进行问题抽象，并采用一定的搜索算法求解出性能最优的并行化参数。本发明在保证加速器稳定性及可靠性的同时，能够利用商用设计工具针对电压、温度、工艺偏差所预留的时延裕度，从而进一步提升卷积神经网络加速器的性能。

技术领域

本发明涉及集成电路领域及深度学习领域，特别是涉及一种基于可编程器件的卷积神经网络加速方法与系统。

背景技术

卷积神经网络是一个多层感知器，具有良好的容错能力、并行处理能力和自学习能力。在处理图形问题上，特别是在识别位移、缩放及其他形式扭曲不变性的问题上具有良好的鲁棒性和运算效率，因此被广泛应用在深度学习中作为基准神经网络架构。

现场可编程门阵列(Field Programmable GateArray，FPGA)是一种可编程器件，它具有计算源丰富、灵活可重配置、开发周期短以及功耗低等优点。相比于CPU(CentralProcessing Unit)以及GPU(Graphics Processing Unit)，现场可编程门阵列因可达到较高的性能功耗比而被广泛应用于神经网络的实现。然而，受到现有资源及通信带宽的限制，大规模卷积神经网络在现场可编程门阵列上的实现仍然是一项具有挑战的工作。卷积神经网络应用时的性能主要以计算吞吐量进行评估。如公式(1)所示，吞吐量主要由时钟频率和单位时间内的操作数计算得到，其中卷积神经网络加速器单位时间内执行的操作数主要由网络实现的并行度决定。

吞吐量＝单位时间内操作数×时钟频率 (1)

卷积神经网络主要由卷积层、池化层、全连接层等组成。卷积层对图片进行特征提取，卷积的计算核可以实现为一维或者二维基本处理单元。池化层(Pooling Layer)是对特征图进行子采样，用于来减少图片的分辨率，进而减少整个网络的计算量和参数数量。池化层一般出现在卷积层后，因此在实现上通常和卷积层一起实现。全连接层是对前面得到的特征对图片进行分类，它一般以矩阵乘法运算实现。

在现场可编程门阵列上，卷积神经网络加速器的设计空间探索(性能空间探索)方法主要分为两类：寄存器传输(Register Transfer Level，RTL)级设计和实现级设计。它们的特征分别如下。

RTL级设计是指在RTL阶段针对并行度或者计算吞吐量进行提升。其中，针对并行度而进行设计的RTL级设计方法主要通过提升卷积层，或者整个卷积神经网络的并行度而实现。在FPGA的实现上，加速器的并行度主要受到FPGA计算资源及带宽两方面的限制，通过屋顶模型(Roofline Model)对卷积层的计算及带宽需求进行建模，可以寻求得到卷积层的最优设计参数；此外，采用奇异值分解(Singular Value Decomposition，SVD)、动态精度调整(Dynamic-Precision Data Quantization)的方法可以减少整个网络的参数数量，进而减小带宽负担；采用快速傅里叶变换(Fast Fourier Transformation，FFT)或流水线(Pipeline)架构可以提升加速器的计算效率，从而增强加速器的并行度。另一方面，针对吞吐量而进行的设计的RTL级设计方法以整个计算吞吐量为优化目标进行设计空间探索，由于卷积神经网络的最高频率与并行策略、各类计算资源与并行策略间的关系均可以通过实验来经验性的给出，网络的吞吐量可以经验性的表达为关于并行参数的函数来进行设计空间的探索，由此实现较为综合的性能优化。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所，未经中国科学院计算技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710469354.4/2.html，转载请声明来源钻瓜专利网。

上一篇：纸样规格参数推理模型的神经网络的训练学习方法和系统
下一篇：神经网络模型训练方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于可编程器件的卷积神经网络加速方法与系统有效

专利文献下载