[发明专利]卷积运算装置及方法有效
| 申请号: | 201810236767.2 | 申请日: | 2016-04-22 |
| 公开(公告)号: | CN108388541B | 公开(公告)日: | 2020-12-11 |
| 发明(设计)人: | 刘少礼;张潇;陈云霁;陈天石 | 申请(专利权)人: | 安徽寒武纪信息科技有限公司 |
| 主分类号: | G06F17/16 | 分类号: | G06F17/16 |
| 代理公司: | 北京华进京联知识产权代理有限公司 11606 | 代理人: | 黄易 |
| 地址: | 231283 安徽省合肥市高新区习友路3333*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 卷积 运算 装置 方法 | ||
本发明提供了一种卷积运算装置及方法,上述方法包括如下步骤:获取卷积指令;根据卷积指令从存储单元中获取卷积核矩阵数据;从待卷积矩阵的起始位置开始,获取卷积核矩阵数据在当前位置的子矩阵数据;执行卷积计算操作,根据卷积指令中给定的位移参数,将卷积核矩阵数据从当前位置移动至下一位置,并获取下一位置对应的子矩阵数据,之后返回执行卷积计算操作的步骤,直至完成待卷积矩阵数据的卷积计算,获得结果矩阵。本发明的卷积运算装置及方法,使得卷积运算过程中可以更加灵活有效地支持不同宽度的数据,提升包含大量子矩阵计算任务的执行性能,提高了卷积指令等运算的运算效率。
本申请是申请日为2016年04月22日、申请号为201610258546.6、专利名称为“一种子矩阵运算装置及方法”的分案申请。
技术领域
本发明属于计算机领域,尤其涉及一种卷积运算装置及方法。
背景技术
当前计算机领域有越来越多的算法涉及到矩阵运算,包括人工神经网络算法和图形的渲染算法。与此同时,作为矩阵运算中的一个重要组成部分,子矩阵运算也越来越频繁的出现在各种计算任务中。所以对于那些面向解决矩阵运算问题的方案,必须同时考虑子矩阵运算实现的效率和难度。
在现有技术中一种进行子矩阵运算的已知方案是使用通用处理器,该方法通过通用寄存器堆和通用功能部件来执行通用指令,从而执行子矩阵运算。然而,该方法的缺点之一是单个通用处理器多用于标量计算,在进行子矩阵运算时运算性能较低。而使用多个通用处理器并行执行时,通用处理器之间的相互通讯又有可能成为性能瓶颈,同时,实现子矩阵运算的代码量也大于正常的矩阵运算。
在另一种现有技术中,使用图形处理器(GPU)来进行子矩阵计算,其中,通过使用通用寄存器堆和通用流处理单元执行通用SIMD(Single Instruction Multiple Data,单指令多数据流)指令来进行子矩阵运算。然而,上述方案中,GPU片上缓存太小,在进行大规模子矩阵运算时需要不断进行片外数据搬运,片外带宽成为了主要性能瓶颈。
在另一种现有技术中,使用专门定制的矩阵运算装置来进行子矩阵计算,其中,使用定制的寄存器堆和定制的处理单元进行子矩阵运算。然而,目前已有的专用矩阵运算装置受限于寄存器堆,子矩阵数据通常具有特定的规模,不能够灵活地支持不同长度的子矩阵运算。
综上所述,现有的不管是片上多核通用处理器、片间互联通用处理器(单核或多核)、还是片间互联,图形处理器都无法进行高效的子矩阵运算,并且这些现有技术在处理子矩阵运算问题时存在着代码量大,受限于片间通讯,片上缓存不够,支持的子矩阵规模不够灵活等问题。
发明内容
基于此,本发明提供一种卷积运算装置及方法,通过配合卷积指令,能够满足不同规模子矩阵数据的卷积运算过程,高效地实现卷积指令等运算。
一种卷积运算方法,所述方法包括如下步骤:
获取卷积指令;
根据所述卷积指令从存储单元中获取卷积核矩阵数据;
从待卷积矩阵的起始位置开始,获取所述卷积核矩阵数据在当前位置的子矩阵数据;
执行卷积计算操作,所述卷积计算操作包括:对所述卷积核矩阵数据和所述卷积核矩阵数据在所述当前位置的子矩阵数据进行对位相乘运算获得多个元素,并对多个所述元素进行累加求和运算,获得所述当前位置的卷积结果;
根据所述卷积指令中给定的位移参数,将所述卷积核矩阵数据从所述当前位置移动至下一位置,并获取所述下一位置对应的子矩阵数据,之后返回执行卷积计算操作的步骤,直至完成所述待卷积矩阵数据的卷积计算,获得结果矩阵。
在其中一个实施例中,从待卷积矩阵的起始位置开始,获取所述卷积核矩阵数据在当前位置的子矩阵数据的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽寒武纪信息科技有限公司,未经安徽寒武纪信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810236767.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于模糊综合评价的道路网选取方法
- 下一篇:一种轨道交通拥挤度计算方法及系统





