[发明专利]流水线结构神经网络矩阵运算架构及方法在审
| 申请号: | 201810813920.3 | 申请日: | 2018-07-23 |
| 公开(公告)号: | CN109144469A | 公开(公告)日: | 2019-01-04 |
| 发明(设计)人: | 王照钢;毛劲松;徐栋麟 | 申请(专利权)人: | 上海亮牛半导体科技有限公司 |
| 主分类号: | G06F7/498 | 分类号: | G06F7/498;G06F17/16;G06N3/06 |
| 代理公司: | 上海元好知识产权代理有限公司 31323 | 代理人: | 包姝晴 |
| 地址: | 201203 上海市浦东新区中国*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 输入矩阵 输入向量 累加 流水线结构 乘加操作 矩阵运算 流水线式 神经网络 输出 维度 架构 数字电路实现 反复迭代 继续执行 输出结果 相乘结果 向量矩阵 加速器 列向量 | ||
本发明提出了一种流水线结构神经网络矩阵运算架构,其包含:加速器,通过数字电路实现,用于对输入向量A和输入矩阵B执行流水线式乘加操作以得到A*B=D的结果,其中,A为一个维度1*m的列向量,B的维度为m*n,D为1行n列的向量矩阵输出结果;所述的流水线式乘加操作指,将输入矩阵B分为多个不同列块,将输入向量A与输入矩阵B的第一列块进行乘和累加并将结果输出,再继续执行输入向量A与输入矩阵B中下一列块的乘和累加并将结果输出,如此反复迭代,直至输入向量A与输入矩阵B中最后一列块也完成了乘和累加并且结果也输出之后,即得到输入向量A与输入矩阵B的相乘结果D。
技术领域
本发明涉及数字电路集成设计技术领域,具体涉及一种流水线结构神经网络矩阵运算架构及方法。
背景技术
对于一组输入数据,如语音信号的特征向量或者二维图像数据,通过神经网络模型的计算能够得出该语音信号或二维图像数据所对应语素信息或图像对应的标注信息,从数据输入到利用神经网络模型计算最后产生输出结果往往需要消耗大量的计算资源或者存储资源。
而我们知道,一块集成电路性能的好坏主要从其处理数据的速度、性能稳定性、材料成本以及占用空间大小等方面进行评价,数据的处理方式关系到运算的速度等多个方面的性能,就目前市场上的芯片设计师在处理算法上想方设法进行各种优化,以便达到高效、节约成本、提高产品性能等目的,例如,现有的神经网络矩阵运算架构通常具有以下缺点:
1、矩阵运算的维度是固定的,不能自适应地改变运算规模;
2、通常是中央处理单元CPU经由占用内存,如RAM来进行计算,是一种软件操作运算,其速度取决于CPU的运算频率,规模大时会消耗大量内存空间,计算效率非常低;
3、通过DSP处理器来实现矩阵向量乘法操作,这样的操作往往是串行执行,执行效率低耗时较长,输入向量和权重矩阵式预先存在RAM空间,计算过程中的中间变量也需要输出,进一步增加了存储以及宽带开销。
发明内容
本发明的目的在于提供一种流水线结构神经网络矩阵运算架构及方法,利用数字电路实现包含有阵列排布的乘累加MAC单元以及配合设置的计数器、移位器实现的加速器,结合循环原理将数据循环输入,实现如流水线结构按照原始要求进行叠加、归位累加,使得矩阵与向量乘操作可以并行执行,相对于CPU以及DSP的处理方式而言,大大提升了处理速度,且中间结果可以保存在本地,不消耗额外的存储开销;通过控制器的辅助,实现动态配置参与乘加运算的矩阵和向量的维度、计数器脉冲的数量、移位器的移位深度。
为了达到上述目的,本发明通过以下技术方案实现:
一种流水线结构神经网络矩阵运算架构,其特征是,包含:
加速器,通过数字电路实现,用于对输入向量A和输入矩阵B执行流水线式乘加操作以得到A*B=D的结果,其中,A为一个维度1*m的列向量,B的维度为m*n,D为1行n列的向量矩阵输出结果;所述的流水线式乘加操作指,将输入矩阵B分为多个不同列块,将输入向量A与输入矩阵B 的第一列块进行乘和累加并将结果输出,再继续执行输入向量A与输入矩阵B中下一列块的乘和累加并将结果输出,如此反复迭代,直至输入向量A与输入矩阵B中最后一列块也完成了乘和累加并且结果也输出之后,即得到输入向量A与输入矩阵B的相乘结果D。
上述的流水线结构神经网络矩阵运算架构,其中,所述的加速器包含:
定点乘累加模块,用于对输入向量A与输入矩阵B执行流水式乘加操作;该定点乘累加模块包含若干并行运行的定点乘加器,每个定点乘累加器的两个输入端依次输入向量A的1行m列的各个元素以及输入矩阵B对应列块中对应列里的各个元素,以分别同步地执行对输入向量A与输入矩阵B的对应列块中各对应列的乘和累加,并且计算完成后在计数器reset脉冲对每个定点乘加器的RC复位脉冲使能端的控制下进行乘累加结果的输出和归零,再执行输入向量A与输入矩阵B中下一个对应列块的乘和累加;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海亮牛半导体科技有限公司,未经上海亮牛半导体科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810813920.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于心率监测耳机来调整播放终端音量的方法
- 下一篇:一种计算装置及方法





