[发明专利]基于向量指令加速计算的Winograd卷积实现方法有效

申请号：	202111412784.5	申请日：	2021-11-25
公开（公告）号：	CN113835758B	公开（公告）日：	2022-04-15
发明（设计）人：	曾令仿;陈晓锋;陈志广	申请（专利权）人：	之江实验室
主分类号：	G06F9/30	分类号：	G06F9/30;G06F9/50;G06N3/04;G06N3/063
代理公司：	杭州浙科专利事务所(普通合伙) 33213	代理人：	孙孟辉;杨小凡
地址：	310023 浙江省杭州市余***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于向量指令加速计算 winograd 卷积实现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于向量指令加速计算的Winograd卷积实现方法，包括如下步骤：S1，构建寄存器分块策略，在CPU上的Winograd卷积实现过程中，原始数据转换到Winograd数据域时，对中间缓冲的数据进行向量分块和寄存器分块；S2，构建内存数据布局策略，将Winograd卷积的原始数据和中间缓冲的数据在内存上进行排列，相对于矩阵乘法的最优性，对中间缓冲的数据布局，将Winograd分块维度安排到更内层的位置；S3，构建cache分块搜索，根据CPU硬件参数和卷积参数确定的小范围内，搜索cache分块的性能最优解，并将其与对应的卷积参数一起保存，后续通过卷积参数直接采用该性能最优解。

技术领域

本发明涉及面向深度学习应用的运行支撑系统领域，尤其是涉及一种通过向量指令和访存优化改进卷积算法，从而加速深度学习训练及推理的方法。

背景技术

近几年来，人工智能研究日趋火热。深度学习作为人工智能的核心技术，依托深度神经网络模型在学术研究和实际应用中发挥着越来越重要的作用。深度学习包括训练和推理两种任务，训练是将训练数据集在深度神经网络模型上迭代地计算，使神经网络不断更新其内部的模型参数，逐渐获得完成目标任务（如图像分类、图像分割等）的能力；而推理则是使用训练后的深度神经网络模型对数据项执行一轮计算，得出在相应目标任务中该数据项的预测结果。无论是训练任务还是推理任务，都需要大量的计算资源执行神经网络的计算。

然而随着深度学习研究的深入，神经网络的层数不断增加，从AlexNet的8层，到VGG的19层和GooLeNet的22层，甚至ResNet更是深达152层，深度学习面临所需计算资源急剧膨胀的问题。因此高效地利用有限的计算资源，从而尽可能地加速神经网络的计算有着重要的意义。

目前深度学习支撑技术领域关于计算加速的研究主要集中在加速算法的设计和工程实现的优化两方面。在加速算法的设计这一方面，由于神经网络大部分的计算耗费在卷积层上，改进卷积层的计算成为加速深度学习的主要途径。Winograd卷积是一个著名的卷积加速算法，由于乘法运算在硬件平台上计算开销较大，Winograd卷积通过将一部分乘法运算转换为加法运算从而减少乘法运算的数量，进而实现高性能的卷积计算。Winograd卷积的基本原理来自一个基础的计算复杂性理论——最小滤波算法，在卷积计算中的应用方式具体表现为将输入数据和卷积核数据转换到Winograd数据域，在此数据域中对转换后的输入数据和卷积核数据执行高维矩阵乘法运算，然后再将结果从该数据域转换回原始数据域，得到最终的输出数据，即卷积计算的结果。Winograd卷积包含多个步骤，各个步骤之间需要中间内存缓冲来保存Winograd数据域中的中间数据，这引入了访存的不连续性以及不同步骤之间访存模式的冲突问题，因此尽管Winograd卷积理论上能够提升卷积计算两倍以上的性能，但其实际性能表现却与理论数据存在明显的差距。而在工程实现的优化这一方面，计算加速相关研究主要聚焦于GPU硬件平台，利用GPU的大规模并行线程处理深度学习任务的内在数据并行性。然而随着神经网络加深，内存需求不断增大，GPU内存逐渐成为深度学习训练的瓶颈。而现代CPU通常有数十个物理核心，每个核心支持一个或多个SIMD（Single Instruction Multi Data，单指令多数据流）向量运算单元，具备强大的运算能力，足以应付高密度的神经网络计算。同时CPU平台具备大容量系统内存，可以满足神经网络持续增长的内存需求。

发明内容

为解决现有技术的不足，结合CPU的微架构特征采用多种细粒度技术手段优化卷积计算的性能，实现加速深度神经网络卷积层的计算，提高计算资源的利用率的目的，本发明采用如下的技术方案：

基于向量指令加速计算的Winograd卷积实现方法，包括如下步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于之江实验室，未经之江实验室许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111412784.5/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于向量指令加速计算的Winograd卷积实现方法有效

专利文献下载