[发明专利]具有本地化存储器的矩阵处理器在审
申请号: | 201780065339.1 | 申请日: | 2017-10-05 |
公开(公告)号: | CN109863477A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 李静;张嘉亮 | 申请(专利权)人: | 威斯康星校友研究基金会 |
主分类号: | G06F9/30 | 分类号: | G06F9/30;G06F9/48 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 康建峰;陈炜 |
地址: | 美国威*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 存储器 计算机架构 矩阵处理器 外部存储器 处理算法 处理元件 矩阵乘法 矩阵运算 有效处理 数据流 共享 逻辑列 逻辑行 关联 | ||
一种计算机架构,所述计算机架构提供以逻辑行和逻辑列布置的多个处理元件以共享与每个列和行相关联的本地存储器。这种在行和列的基础上的存储器的共享提供有效的矩阵运算诸如矩阵乘法,例如可以用于各种处理算法中以减少外部存储器和本地存储器之间的数据流和/或降低用于有效处理所需的本地存储器的尺寸。
关于联邦赞助研究或开发的声明
--
相关申请的交叉引用
本申请要求于2016年10月25日提交的美国申请第15/333,696号的权益并且该美国申请的全文并入本申请中。
背景技术
本发明涉及用于高速矩阵运算的计算机架构,并且具体地涉及提供矩阵处理器,该计算机架构提供本地存储器,减少了用于矩阵类型计算的外部存储器和本地存储器之间的存储器瓶颈。
矩阵计算诸如矩阵乘法是范围广泛的新兴计算机应用例如机器学习和使用数学核函数诸如多维卷积的图像处理的基础。
常规的通用处理器不能充分地利用矩阵计算的并行性质,因此开发专用矩阵加速器例如使用现场可编程门阵列(FPGA)来执行矩阵计算受到关注。在这种设计中,FPGA的不同处理元件可以使用被加载到与每个处理元件相关联的本地存储器中的矩阵的部分来同时处理不同的矩阵元素。
发明内容
本发明人已经认识到,在FPGA类型架构的外部存储器和本地存储器之间传输矩阵数据存在严重的存储器瓶颈。该瓶颈由与FPGA类型架构的计算资源相比受限的本地存储器的尺寸以及从外部存储器到本地存储器的重复数据传输所固有的延迟两者造成。本发明人还认识到,计算资源比本地存储器资源的更快速增长加剧了这个问题。
本发明通过在多个处理单元之间共享存储在通常与给定处理单元相关联的给定本地存储器资源中的数据来解决这个问题。共享可以是处于遵循矩阵计算的逻辑相互关系(例如,沿着矩阵的一个或更多个维度上的行和列)的模式。这种共享减少了存储器复制(需要将给定值存储在多个本地存储器位置),因此既减少了本地存储器的需求又减少了本地存储器和外部存储器之间不必要的数据传输,极大地加速了计算和/或降低了与计算相关联的消耗。
具体地,本发明提供一种用于矩阵计算的计算机架构,所述计算机架构包括一组处理元件,该一组处理元件各自被布置在逻辑行和逻辑列中以沿着第一数据线和第二数据线接收操作数。第一数据线各自连接至每个逻辑行中的多个处理元件并且第二数据线各自连接至逻辑列中的逻辑处理元件。本地存储器元件与第一数据线和第二数据线中的每一个数据线相关联以同时向通过第一数据线和第二数据线互连的每个处理元件提供给定的操作数。调度器将数据从外部存储器传输至本地存储器元件并且顺序地将存储在本地存储器元件中的操作数应用于第一数据线和第二数据线以使用操作数来实现矩阵计算。
因此,本发明的至少一种实施方式的特征是提供在多个处理元件之间共享来自本地存储器的操作数值的架构,以消除本发明人所认识到的外部存储器与本地存储器之间的在矩阵类型计算中呈现限制因素的存储器传输瓶颈。
通常,本地存储器元件位于还容纳处理元件的单个集成电路基板上并且可以分布在集成电路上,使得每个给定的本地存储器接近相应的给定处理元件。
因此,本发明的至少一种实施方式的特征是在适应可用的受限量的本地存储器和外部存储器刷新本地存储器所需的时间延迟的同时允许利用本地存储器(片上存储器)进行可能的高速处理。
处理元件可以通过例如由现场可编程门阵列提供的类型的可编程互连结构进行互连。
因此,本发明的至少一种实施方式的特征是在FPGA类型的设备中提供本发明的架构的现成的实现方式。
该架构可以至少提供八个逻辑行和八个逻辑列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于威斯康星校友研究基金会,未经威斯康星校友研究基金会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780065339.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:动态变量精度计算
- 下一篇:用于异构并行结构的细粒度功率优化