[发明专利]浮点加法器的交错流水线在审

申请号：	202010127345.9	申请日：	2020-02-28
公开（公告）号：	CN111752618A	公开（公告）日：	2020-10-09
发明（设计）人：	S·卢巴诺维奇;A·格雷德斯廷;Z·斯波伯	申请（专利权）人：	英特尔公司
主分类号：	G06F9/38	分类号：	G06F9/38;G06N20/00
代理公司：	上海专利商标事务所有限公司 31100	代理人：	陈依心;何焜
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	浮点加法器交错流水线
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了浮点加法器的交错流水线。所公开实施例涉及浮点(FP)加法器的交错流水线。在一个示例中，处理器用于执行指令，该指令指定操作码并指定M乘K的第一源矩阵、K乘N的第二源矩阵、和M乘N的目的地矩阵的位置，该操作码指示执行电路用于针对目的地矩阵的每个FP元素(M,N)启动流水线的K个实例，该流水线的K个实例具有：第一乘法级，在第一乘法级期间将第一源矩阵的FP元素(M,K)与第二源矩阵的对应FP元素(K,N)相乘；并发地，在指数差级中，确定乘积与目的地矩阵的元素(M,N)的前一FP值之间的指数差；以及在第二加法‑旁路级中，将乘积与前一FP值累加并且并发地将累加和旁路到后续流水线实例。

技术领域

技术领域总体上涉及计算机处理器架构，并且更具体地涉及用于执行浮点加法器的交错流水线的系统和方法。

背景技术

在诸如机器学习和其他批量数据处理之类的许多计算任务中，矩阵正变得日益重要。深度学习是一类机器学习算法。诸如深度神经网络的深度学习架构已经被应用于包括计算机视觉、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学和药物设计的领域。

用于深度学习的两种工具推理和训练正趋向于低精度算术。使深度学习算法和计算的吞吐量最大化可以辅助满足深度学习处理器的需求，深度学习处理器例如在数据中心中执行深度学习的那些处理器。

矩阵-矩阵乘法(也称为GEMM或通用矩阵乘法)是在当今处理器上的常见的重计算操作。用于矩阵乘法(例如，GEMM)的特殊硬件是用于改善诸如深度学习之类的某些应用的峰值计算(和能效)的好的选项。只要输出元素具有足够的位(即，多于输入)，这些应用中的一些，包括深度学习，就可以对具有相对少的位的输入数据元素进行操作而不损失准确度。

在机器学习的上下文中执行的常见操作是矩阵(片)浮点融合乘法-累加(FMA)指令，无论是单精度还是双精度的。期望改善FMA指令的功率和性能以改善使用那些指令的应用的功率和性能，包括机器学习训练和推理应用。

附图说明

在所附附图中以示例方式而非限制方式来图示本发明，在附图中，类似的附图标记指示类似的要素，其中：

图1A图示经配置的片的实施例；

图1B图示经配置的片的实施例；

图2图示矩阵存储的若干示例；

图3图示利用矩阵(片)操作加速器的系统的实施例；

图4和图5示出如何使用矩阵操作加速器来共享存储器的不同实施例；

图6图示使用片的矩阵乘法累加操作(“TMMA”)的实施例；

图7图示链式融合乘法累加指令的迭代的执行的子集的实施例；

图8图示链式融合乘法累加指令的迭代的执行的子集的实施例；

图9图示链式融合乘法累加指令的迭代的执行的子集的实施例；