[发明专利]用于经融合的乘加的系统、装置和方法在审
申请号: | 202310172571.2 | 申请日: | 2016-10-20 |
公开(公告)号: | CN116009814A | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | R.瓦伦丁;G.利夫钦;P.马吉切尔;M.J.查尼;E.奥尔德-艾哈迈德-瓦尔;J.科巴尔;M.B.格卡尔;Z.斯珀伯;S.鲁巴诺维奇;A.格拉德斯坦 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F7/544 | 分类号: | G06F7/544;G06F9/30;G06F9/318 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 李炜;黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 融合 系统 装置 方法 | ||
本申请公开了用于经融合的乘加的系统、装置和方法。在一些实施例中,第一和第二紧缩数据源操作数的紧缩数据元素具有与第三紧缩数据操作数的紧缩数据元素的第二大小不同的第一大小。执行电路执行经解码的单个指令,用以为目的地操作数的每个紧缩数据元素定位履行:来自第一和第二紧缩数据源的、与第三紧缩数据源的紧缩数据元素定位相对应的M个N大小的紧缩数据元素的乘法,将来自这些乘法的结果加到第三紧缩数据源的紧缩数据元素定位的全大小紧缩数据元素,并且将加法结果存储在与第三紧缩数据源的紧缩数据元素定位相对应的紧缩数据元素定位目的地中,其中M等于全大小紧缩数据元素除以N。
本申请是PCT国际申请号为PCT/US2016/057991、国际申请日为2016年10月20日、进入中国国家阶段的申请号为201680089435.5,题为“用于经融合的乘加的系统、装置和方法”的发明专利申请的分案申请。
技术领域
本发明的领域一般地涉及计算机处理器架构,并且更具体地涉及当被执行的时候引发特定结果的指令。
背景技术
线性代数中的常见操作是乘法累加操作(例如c=c+a*b)。乘法累加典型地是操作流中的子操作,例如在两个向量之间的点积,其还可以是矩阵乘法中列和行的单个乘积。例如,
C=0
For(I)
C+=A[l]*B[l]。
附图说明
本发明作为示例而不是限制地在附图的各图中被图示,在所述附图中,同样的参考标记指示类似的元素并且其中:
图1图示了根据实施例的使用不同大小的操作数的经融合的乘法累加指令的示例性执行;
图2图示了根据实施例的二次幂大小的SIMD实现方式,其中累加器使用比到乘法器的输入更大的输入大小;
图3图示了用于处理诸如经融合的乘法累加指令之类的指令的硬件的实施例;
图4图示了由处理器执行以处理经融合的乘法累加指令的方法的实施例;
图5图示了经融合的乘法累加的执行的子集的实施例;
图6图示了用于在硬件中实现该指令的伪代码的实施例;
图7图示了经融合的乘法累加的执行的子集的实施例;
图8图示了用于在硬件中实现该指令的伪代码的实施例;
图9图示了经融合的乘法累加的执行的子集的实施例;
图10图示了用于在硬件中实现该指令的伪代码的实施例;
图11图示了经融合的乘法累加的执行的子集的实施例;
图12图示了用于在硬件中实现该指令的伪代码的实施例;
图13A是一框图,其图示了根据本发明的实施例的通用向量友好的指令格式及其A类指令模板;
图13B是一框图,其图示了根据本发明的实施例的通用向量友好的指令格式及其B类指令模板;
图14A是一框图,其图示了根据本发明的实施例的示例性的特定向量友好的指令格式;
图14B是一框图,其图示了根据本发明的一个实施例的构成全操作码字段的特定向量友好的指令格式的字段;
图14C是一框图,其图示了根据本发明的一个实施例的构成寄存器索引字段的特定向量友好的指令格式的字段;
图14D是一框图,其图示了根据本发明的一个实施例的构成扩增操作字段的特定向量友好的指令格式的字段;
图15是根据本发明的一个实施例的寄存器架构的框图;
图16A是一框图,其图示了根据本发明的实施例的示例性有序的流水线以及示例性的寄存器重命名、无序的发布/执行流水线二者;
图16B是一框图,其图示了根据本发明的实施例的有序架构核,以及将被包括在处理器中的示例性的寄存器重命名、无序的发布/执行架构核二者的示例性实施例;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310172571.2/2.html,转载请声明来源钻瓜专利网。