[发明专利]大规模矩阵重构和矩阵-标量操作在审
申请号: | 202110858640.6 | 申请日: | 2021-07-28 |
公开(公告)号: | CN114327362A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | R·帕洛夫斯基;A·莫尔;V·凯夫;S·阿南塔克里什南;J·M·霍华德;J·B·弗莱曼 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F7/487 | 分类号: | G06F7/487;G06F17/16;G06N20/00 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈依心;黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大规模 矩阵 标量 操作 | ||
本申请公开了大规模矩阵重构和矩阵‑标量操作。描述了用于复制矩阵元素和对矩阵元素进行操作的装置和方法的实施例。在实施例中,一种装置包括:硬件指令解码器,用于对单条指令解码;以及执行电路,耦合至硬件指令解码器,执行电路用于执行与单条指令对应的一个或多个操作。单条指令具有用于引用源矩阵的第一表示的基址的第一操作数和用于引用目的地矩阵的第二表示的基址的第二操作数。一个或多个操作包括:将源矩阵的元素复制到目的地矩阵中的对应的位置;以及利用单个值填充目的地矩阵的空元素。
本发明是在由DARPA授予的合同号HR0011-17-3-0004的政府支持下进行的。政府具有本发明中的特定权利。
技术领域
本发明的领域一般涉及计算机处理器架构,更具体地涉及处理矩阵数据。
背景技术
在诸如机器学习和其他批量数据处理之类的许多计算任务中,矩阵正变得日益重要。深度学习是一类机器学习算法。诸如深度神经网络的深度学习架构已经被应用于包括计算机视觉、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学和药物设计的领域。
用于深度学习的两种工具推理和训练正趋向于低精度算术。使深度学习算法和计算的吞吐量最大化可以辅助满足深度学习处理器的需求,深度学习处理器例如在数据中心中执行深度学习的那些处理器。
矩阵-矩阵乘法(也称为GEMM或通用矩阵乘法)是在当今处理器上的常见的重计算操作。用于矩阵乘法(例如,GEMM)的特殊硬件是用于改善诸如深度学习之类的某些应用的峰值计算(和能效)的好的选项。只要输出元素具有足够的位(即,多于输入),这些应用中的一些,包括深度学习,就可以对具有相对少的位的输入数据元素进行操作而不损失准确度。
附图说明
在所附附图中以示例方式而非限制方式来图示本发明,在附图中,类似的附图标记指示类似的要素,其中:
图1A图示经配置的片的实施例;
图1B图示经配置的片的实施例;
图2图示矩阵存储的若干示例;
图3图示利用矩阵(片)操作加速器的系统的实施例;
图4和图5示出如何使用矩阵操作加速器来共享存储器的不同实施例;
图6图示使用片的矩阵乘法累加操作(“TMMA”)的实施例;
图7图示链式融合乘法累加指令的迭代的执行的子集的实施例;
图8图示链式融合乘法累加指令的迭代的执行的子集的实施例;
图9图示链式融合乘法累加指令的迭代的执行的子集的实施例;
图10图示链式融合乘法累加指令的迭代的执行的子集的实施例;
图11图示根据实施例的尺寸为2的幂的SIMD实现方式,其中,累加器使用比至乘法器的输入的尺寸大的输入尺寸;
图12图示利用矩阵操作电路的系统的实施例;
图13图示处理器核流水线的实施例,该处理器核流水线支持使用片的矩阵操作;
图14图示处理器核流水线的实施例,该处理器核流水线支持使用片的矩阵操作;
图15图示按行为主格式和列为主格式表达的矩阵的示例;
图16图示矩阵(片)的使用的示例;
图17图示矩阵(片)的使用的方法的实施例;
图18图示根据实施例的对片的使用的配置的支持;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110858640.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:光检测和测距系统以及光学系统
- 下一篇:电动牙刷刷头寿命提醒方法及装置