[发明专利]用于处理非常稀疏和超稀疏矩阵数据的硬件加速器架构在审
| 申请号: | 201711239220.X | 申请日: | 2017-11-30 |
| 公开(公告)号: | CN108268422A | 公开(公告)日: | 2018-07-10 |
| 发明(设计)人: | E.努尔维塔希;D.马尔 | 申请(专利权)人: | 英特尔公司 |
| 主分类号: | G06F17/16 | 分类号: | G06F17/16;G06F9/50 |
| 代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 郑浩;杨美灵 |
| 地址: | 美国加利*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 随机访问 存储器 稀疏矩阵 硬件加速器 矩阵运算 读请求 向量 稀疏 架构 矩阵 数据管理单元 处理元件 操作数 加速器 写请求 并行 存储 优化 访问 | ||
1.一种用于执行关于非常稀疏或超稀疏矩阵的矩阵运算的硬件加速器,包括:
一个或多个片,其中每个片包含:
多个处理元件(PE),其用来执行涉及由存储器所存储的、作为第一操作数的一个或多个非常或超稀疏矩阵的矩阵运算;以及
数据管理单元(DMU),其用来提供对所述存储器的所述多个PE访问,所述存储器经由接口用来与所述硬件加速器耦合,所述接口被优化以提供对数据的低等待时间、并行随机访问;
其中所述多个PE经由所述DMU通过下列步骤来执行所述矩阵运算:
在通过发出对指针值的随机访问读请求来识别所述一个或多个矩阵的值的位置之后发出对所述值的随机访问读请求的第一集合;
发出对用作第二操作数的一个或多个向量的第一集合的值的随机访问读请求的第二集合;以及
发出对用作结果的一个或多个向量的第二集合的值的随机访问写请求的第三集合。
2.如权利要求1所述的硬件加速器,其中,所述DMU包括高速缓存,其用来存储响应于对所述一个或多个矩阵的值的随机访问读请求的所发出的第一集合而返回的数据。
3.如权利要求1所述的硬件加速器,其中,所述存储器是也被另一个硬件处理器所利用的系统存储器。
4.如权利要求1所述的硬件加速器,其中,所述硬件加速器要响应于由另一个硬件处理器所发出的一个或多个任务的卸载而执行所述矩阵运算。
5.如权利要求1所述的硬件加速器,其中,所述一个或多个矩阵按照压缩格式来存储。
6.如权利要求1所述的硬件加速器,其中,所述矩阵运算包含乘法运算。
7.如权利要求1-6中任一项所述的硬件加速器,其中,所述矩阵运算包含换算和更新运算、乘法运算和点积运算。
8.一种在硬件加速器中用于执行关于非常稀疏或超稀疏矩阵的矩阵运算的方法,包括:
由一个或多个片的多个处理元件(PE)的一个或多个PE在通过发出对指针值的随机访问读请求来识别一个或多个非常稀疏或超稀疏矩阵的值的位置之后经由一个或多个数据管理单元(DMU)向存储器发出对所述值的随机访问读请求的第一集合,其中所述一个或多个DMU经由接口来访问所述存储器,所述接口被优化以提供对数据的低等待时间、并行随机访问;
由所述一个或多个PE经由所述一个或多个DMU来发出对用作第二操作数的一个或多个向量的第一集合的值的随机访问读请求的第二集合;以及
由所述一个或多个PE经由所述一个或多个DMU来发出对用作结果的一个或多个向量的第二集合的值的随机访问写请求的第三集合。
9.如权利要求8所述的方法,其中,所述DMU包括高速缓存,其用来存储响应于对所述一个或多个矩阵的值的随机访问读请求的所发出的第一集合而返回的数据。
10.如权利要求8所述的方法,其中,所述存储器是也被另一个硬件处理器所利用的系统存储器。
11.如权利要求8所述的方法,其中,发出请求的第一集合、请求的第二集合和请求的第三集合响应于由另一个硬件处理器到所述硬件加速器的一个或多个任务的卸载而发生。
12.如权利要求8所述的方法,其中,所述一个或多个矩阵按照压缩格式来存储。
13.如权利要求8所述的方法,其中,所述矩阵运算包含乘法运算。
14.如权利要求8-13中任一项所述的方法,其中,所述矩阵运算包含换算和更新运算、乘法运算和点积运算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711239220.X/1.html,转载请声明来源钻瓜专利网。





