[发明专利]应用于Fastformer神经网络的硬件架构及其计算方法在审
申请号: | 202111448567.1 | 申请日: | 2021-12-01 |
公开(公告)号: | CN114330682A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 路思远;王中风 | 申请(专利权)人: | 南京风兴科技有限公司 |
主分类号: | G06N3/063 | 分类号: | G06N3/063;G06F17/16;G06F17/15 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 210032 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 应用于 fastformer 神经网络 硬件 架构 及其 计算方法 | ||
本申请公开了应用于Fastformer神经网络的硬件架构及其计算方法。所述硬件架构包括数据存储模块、读取缓冲模块、写入缓冲模块、计算模块以及控制模块;其中控制模块用于控制所述硬件架构执行计算操作,所述计算模块包括线性计算子模块、非线性计算子模块和中间存储子模块;所述线性计算模块包括多个向量计算单元,用于执行包括向量矩阵乘法、矩阵加法、逐元素积的线性运算,所述非线性子模块用于执行归一化指数函数运算。所述硬件架构及其计算方法能够有效提高Fastformer神经网络的运算速度及效率。
技术领域
本申请涉及神经网络技术领域,尤其涉及应用于Fastformer神经网络的硬件架构及其计算方法。
背景技术
Fastformer网络是一种针对自然语言处理任务所设计的神经网络模型,其模型架构如图1所示。Fastformer网络采用加性注意力机制,能够以线性复杂度来建立上下文信息。
Fastforemer网络的输入矩阵Input的行数代表网络的隐层维度(hiddendimension),列数代表输入序列的长度,其中,网络的隐层维度一般为256,输入序列的长度为128-65536,具体由不同任务处理文本的输入长度确定;一般情况下,输入序列的长度大于网络的隐层维度。首先,输入矩阵先经过三个并行的线性层(分别为查询线性层、键线性层和值线性层,每一个线性层都包括一个预先训练好的权重矩阵和偏置向量)变成查询矩阵、键矩阵和值矩阵;然后对查询矩阵进行归一化指数处理得到全局查询向量;然后对全局查询向量和键矩阵进行逐元素积运算,使得全局查询向量学习到上下文相关的键矩阵,得到中间键矩阵,然后对中间键矩阵进行归一化指数处理得到全局键向量;再对全局键向量与值矩阵进行逐元素积运算,使得全局键向量学习到上下文相关的值矩阵,得到中间值矩阵;中间值矩阵经过一个预先训练好的线性层(与上述三个并行的线性层类似,也包括预先训练好的权重矩阵和偏置向量)变换成全局值矩阵;最后,将全局值矩阵与查询矩阵进行相加得到输出矩阵。
目前,都是在CPU或者GPU等通用的计算平台上运算Fastformer网络模型,还未有针对Fastformer神经网络开发出专用的硬件架构。若要提高该神经网络的运算速度和效率,亟需设计出专用的硬件架构。
发明内容
为了提高Fastformer神经网络的运算速度和效率,本申请通过以下方面公开了应用于Fastformer神经网络的硬件架构及其计算方法。
本申请第一方面公开了一种应用于Fastformer神经网络的硬件架构,包括:数据存储模块、读取缓冲模块、写入缓冲模块、计算模块以及控制模块;
数据存储模块用于接收并存储待计算的输入矩阵,以及用于存储预先训练好的参数,以及用于存储计算模块在运算过程中产生的中间数据、以及存储所述硬件架构的计算结果;数据存储模块的输入端为整个硬件架构的输入接口,以及接至写入缓冲模块的输出端;数据存储模块的输出端接至读取缓冲模块的输入端,以及作为所述硬件架构的输出接口;
读取缓冲模块的输入端还接至计算模块的输出端,读取缓冲模块的输出端接至计算模块的输入端;
写入缓冲模块的输入端接至计算模块的输出端;
计算模块包括线性计算子模块、非线性计算子模块和中间存储子模块;线性计算子模块用于执行包括向量矩阵乘法、矩阵加法、逐元素积的线性运算,非线性子模块用于执行归一化指数函数运算,中间存储子模块用于接收非线性子模块的计算结果并传输至线性计算子模块;其中,线性计算子模块的输入端分别接至读取缓冲区的输出端和中间存储子模块的输出端,输出端分别接至读取缓冲区的输入端、写入缓冲模块的输入端以及非线性计算子模块的输入端;非线性计算子模块的输出端接至中间存储子模块的输入端;
控制模块分别接至数据存储模块、读取缓冲模块、写入缓冲模块以及计算模块中的线性计算子模块和非线性计算子模块。
可选的,控制模块用于执行以下操作:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京风兴科技有限公司,未经南京风兴科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111448567.1/2.html,转载请声明来源钻瓜专利网。