[发明专利]用于降低存储开销的汇流阵列有效
申请号: | 201910982582.0 | 申请日: | 2019-10-16 |
公开(公告)号: | CN110764602B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 杨建磊;赵巍胜;付文智 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F1/3234 | 分类号: | G06F1/3234;G06N3/063 |
代理公司: | 北京航智知识产权代理事务所(普通合伙) 11668 | 代理人: | 黄川;史继颖 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 降低 存储 开销 汇流 阵列 | ||
本发明提供一种用于降低存储开销的汇流单元(CE,collective element)阵列,包括多个CE,每个CE内部包含局部存储器,每一个CE可从阵列外或相邻CE接收数据,每一CE可将接收到的数据暂存在内部缓存或输出到阵列之外。本发明通过CE阵列内部的数据传递将一个存储器中的数据广播到多个输出端口上、从而有效地去除了不同存储器间的数据冗余。并在降低存储器容量需求的同时降低了从不同存储器中读取相同数据带来的额外功耗。
技术领域
本发明涉及计算机体系结构技术领域,具体涉及一种用于降低存储开销的汇流单元(collective element)阵列。
背景技术
近年来,深度学习在诸如图像识别、语音处理等领域逐渐取得愈发显著的成绩。然而,随着网络深度的不断增加,深度神经网络训练与推理过程中所需的算力以及访存带宽等需求逐渐难以被传统计算平台所满足。因此,产业界及学术界纷纷提出了各种应用于神经网络的领域专用体系结构(domain specified architecture)以满足该需求。其中,脉动阵列架构,由于具有高并发、低带宽需求等特点,取得了产业界及学术界较大的关注。基于此,本发明的发明人设计了基于脉动阵列的神经网络处理器,并采用汇流阵列完成其数据的汇流传递。同时,在计算机领域中的其他体系的芯片设计中也往往会包含多个独立的片上存储器。计算单元在运行过程中需从多个存储器读取所需数据。在当前主流的设计之中,计算单元往往通过总线与多个存储器相连。然而,在计算单元与存储器数量均较多、带宽需求较大、访存行为较为规整性时,基于总线的连接方式在面积、周期、时序等方面均有一定的浪费。此外,由于各种原因,不同存储器中往往会包含同一数据段的多分拷贝、从而造成了容量的浪费。同时,在芯片运行过程中,由于相同的数据需被写入到多个存储器中、并由多个存储器中重复读取,因而造成了额外的功耗开销。
发明内容
为了至少部分解决上述提出的技术问题,其可将一个存储器中的数据沿汇流阵列内部传播、并输送到传播路径上的一个或多个汇流单元(Collective Element)的输出端口上。尤其在对存储器的访问较为规整之时,本设计能够有效去除不同存储器间的数据冗余、并降低所需的存储器容量。同时,通过避免同一数据段被写入到多个存储器、并于多个存储器中被重复读取,本发明提供的汇流阵列达成了访存功耗的降低。
本发明完整的技术方案包括:
一种用于降低存储开销的汇流阵列,其特征在于,该汇流阵列由多个相连的汇流单元CE组成,每个CE包括阵列外输入端口和阵列外输出端口,以及与相连的CE双向连接的第一数据端口和第二数据端口,各CE通过阵列外输入端口接收由阵列外输入的数据;并通过第一数据端口和第二数据端口与相邻CE进行数据交换;通过阵列外输出端口将数据输出到阵列外;
每一CE内部均包含局部存储器;
每一CE可将接收到的数据暂存局部存储器或输出到阵列之外;
所述CE之间传递由阵列外输入的数据,并将从一个存储器中读取到的数据块送到一个或多个输出端口。
所述CE为同步时序电路或异步时序电路。
根据上述的汇流阵列进行数据汇流的方法,所述CE之间传递由阵列外输入的数据块,所述数据块在由一个阵列外输入端口送入到CE阵列之中后沿阵列内部进行传播、并由沿途任意一个或多个CE的阵列外输出端口送到阵列之外。
其中的一种输送方法为:
设有N个需要传输的不同数据块,以xi-1表示第i个需要传递的数据块,接收的端口个数共有N个,其中li-1表示第i个端口,各端口所需的数据为:数据块x0至xi-1需被送到li-1端口上;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910982582.0/2.html,转载请声明来源钻瓜专利网。