[发明专利]一种基于行缓存机制的卷积层融合存储装置及方法在审
申请号: | 202111112572.5 | 申请日: | 2021-09-23 |
公开(公告)号: | CN113946538A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 潘红兵;马舜尧;王宇宣;彭成磊 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F15/78 | 分类号: | G06F15/78;G06N3/04;G06N3/063 |
代理公司: | 江苏法德东恒律师事务所 32305 | 代理人: | 李媛媛 |
地址: | 210046 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 缓存 机制 卷积 融合 存储 装置 方法 | ||
本发明提供了一种基于行缓存机制的卷积层融合存储装置及方法。该装置包括DDR存储器,用于存储原始输入图像数据和最终输出的特征图;片上RAM,用于基于行缓存机制存储卷积层首层的输入图像数据和层间计算结果;DDR控制器,用于控制片上RAM与DDR存储器的数据交互过程;计算模块,包括数据分发模块、卷积运算阵列和结果收集模块,用于按照层融合的分块策略,对图像分块数据进行卷积计算,并将结果存入片上RAM中。本发明可以减少层融合存储过程中分块的重叠搬运,复用数据,提升片上RAM存储资源的利用效率。
技术领域
本发明属于数字图像分类领域,尤其涉及一种基于行缓存机制的卷积层融合存储装置及方法。
背景技术
卷积神经网络是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对大型图像处理有出色表现。
卷积神经网络中包含了大量的卷积运算,并且卷积层的层数随着分类效果的不断提升而逐渐加深,卷积核的数目与通道数也逐步增多,这些因素都大大增加了卷积层中的卷积运算量,因此卷积运算需要占用大量的存储资源。
从片外的存储器DDR进行数据存取的速度严重滞后于卷积神经网络的运算速度,成为了限制其运算速度的主要原因。相对于处理器的时钟频率和性能,存储器的访问延迟不断增大。在缓解处理器和存储器的发展不平衡的问题时,如何有效地利用有限的片上存储资源发挥着重要的作用。
发明内容
针对上述现有技术存在的问题,本发明旨在提供一种基于行缓存机制的卷积层融合存储装置及方法,能够提升计算能效,充分利用片上有限的存储资源。
本发明采取的技术方案为:
一种基于行缓存机制的卷积层融合存储装置,包括:
DDR存储器,用于存储原始输入图像数据和最终输出的特征图;
片上RAM,用于基于行缓存机制存储卷积层首层的输入图像数据和层间计算结果;
DDR控制器,用于控制片上RAM与DDR存储器的数据交互过程;
计算模块,包括数据分发模块、卷积运算阵列和结果收集模块,用于按照层融合的分块策略,对图像分块数据进行卷积计算,并将结果存入片上RAM中。
进一步地,所述DDR控制器包括读控制器和写控制器,分别用于在读写图像分块数据的过程中,控制片上RAM的读写地址。
进一步地,在卷积层的每一层都配置一块片上RAM,第一层的片上RAM用于存储输入图像数据,其余每个卷积层的片上RAM用于存储层间计算结果。
进一步地,所述数据分发模块,用于按照层融合的分块策略,从片上RAM中读出对应的数据传输给卷积运算阵列进行计算;所述卷积运算阵列,用于对数据分块模块传输的数据进行多层网络的卷积运算;所述结果收集模块,用于接收卷积运算阵列的卷积结果,将结果进行拼接,得到下一层的输入并写入对应的片上RAM内。
本发明利用上述一种基于行缓存机制的卷积层融合存储装置的方法,包括如下步骤:
(1)数据分发模块从DDR存储器的相应地址搬运卷积层首层第一个图像分块的数据至片上RAM;并从片上RAM中取出上述数据给卷积运算阵列进行计算;
(2)结果收集模块收集首层第一个分块的计算结果,由DDR控制器将结果写入片上RAM;
(3)首层其余图像分块的计算重复步骤(1)-步骤(2),直到卷积层首层所有分块计算完成,卷积层首层计算的特征图写入片上RAM;
(4)从片上RAM读取卷积层首层得到的特征图进行卷积层第二层的计算,重复步骤(1)-步骤(3),直到得到最终输出的特征图,并将最终输出的特征图写入DDR存储器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111112572.5/2.html,转载请声明来源钻瓜专利网。