[发明专利]用于执行矩阵压缩和解压缩指令的系统和方法在审
| 申请号: | 201910790534.1 | 申请日: | 2019-08-26 |
| 公开(公告)号: | CN110955453A | 公开(公告)日: | 2020-04-03 |
| 发明(设计)人: | D·鲍姆;M·艾斯皮格;J·吉尔福德;W·K·费格哈利;R·萨德;C·J·休斯;R·凡伦天;B·托尔;E·乌尔德-阿迈德-瓦尔;M·J·查尼;V·戈帕尔;R·佐哈;A·F·海内克 | 申请(专利权)人: | 英特尔公司 |
| 主分类号: | G06F9/30 | 分类号: | G06F9/30;G06F9/38;G06F17/16;G06N3/08 |
| 代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈依心;何焜 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 执行 矩阵 压缩 和解 指令 系统 方法 | ||
所公开实施例涉及矩阵压缩/解压缩指令。在一个示例中,处理器包括:取出电路,用于取出具有格式的压缩指令,该格式具有用于指定操作码以及经解压缩的源矩阵和经压缩的目的地矩阵的位置的字段;解码电路,用于对所取出的压缩指令进行解码;以及执行电路,用于响应于经解码的压缩指令而进行以下操作:通过经由以下任一操作压缩所指定的经解压缩的源矩阵来根据压缩算法生成经压缩的结果:将非零值元素紧缩在一起并且将每个非零值元素的矩阵位置存储在头部中,或者使用更少的位来表示一个或多个元素并且使用头部来标识由更少的位表示的矩阵元素;以及将经压缩的结果存储到所指定的经压缩的目的地矩阵。
技术领域
本发明的领域一般涉及计算机处理器架构,并且更具体地涉及用于执行矩阵压缩和解压缩指令的系统和方法。
背景技术
在诸如机器学习和其他批量数据处理之类的许多计算任务中,矩阵正变得日益重要。深度学习是一类机器学习算法。诸如深度神经网络的深度学习架构已经被应用于包括计算机视觉、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学和药物设计的领域。
用于深度学习的两种工具推理和训练趋向于低精度算术。使深度学习算法和计算的吞吐量最大化可以帮助满足深度学习处理器的需求,深度学习处理器例如在数据中心中执行深度学习的那些处理器。
通用矩阵乘法(GEMM)是在机器学习中并且也在线性代数、统计学和许多其他领域中常见的算法。卷积也是在机器学习中通常被应用的。用于执行矩阵压缩和解压缩操作的指令在机器学习上下文中执行卷积和GEMM算法中是有用的。
附图说明
在所附附图中以示例方式而非限制方式来图示本发明,在附图中,类似的附图标记指示类似的要素,其中:
图1A图示经配置的片的实施例;
图1B图示经配置的片的实施例;
图2图示矩阵存储的若干示例;
图3图示利用矩阵(片)操作加速器的系统的实施例;
图4和图5示出如何使用矩阵操作加速器来共享存储器的不同实施例;
图6图示使用片的矩阵乘法累加操作(“TMMA”)的实施例;
图7图示链式融合乘法累加指令的迭代的执行的子集的实施例;
图8图示链式融合乘法累加指令的迭代的执行的子集的实施例;
图9图示链式融合乘法累加指令的迭代的执行的子集的实施例;
图10图示链式融合乘法累加指令的迭代的执行的子集的实施例;
图11图示根据实施例的尺寸为2的幂的SIMD实现方式,其中,累加器使用比至乘法器的输入的尺寸大的输入尺寸;
图12图示利用矩阵操作电路的系统的实施例;
图13图示处理器核流水线的实施例,该处理器核流水线支持使用片的矩阵操作;
图14图示处理器核流水线的实施例,该处理器核流水线支持使用片的矩阵操作;
图15图示按行为主格式和列为主格式表达的矩阵的示例;
图16图示矩阵(片)的使用的示例;
图17图示矩阵(片)的使用的方法的实施例;
图18图示根据实施例的对片的使用的配置的支持;
图19图示将支持的矩阵(片)的描述的实施例;
图20(A)-图20(D)图示(多个)寄存器的示例;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910790534.1/2.html,转载请声明来源钻瓜专利网。





