[发明专利]用于矩阵加法、减法和乘法的系统、方法和装置在审
申请号: | 201780088609.0 | 申请日: | 2017-07-01 |
公开(公告)号: | CN110494846A | 公开(公告)日: | 2019-11-22 |
发明(设计)人: | 罗伯特·瓦伦泰恩;丹·鲍姆;泽夫·斯帕博;耶稣·科巴尔;埃尔莫斯塔法·乌尔德-艾哈迈德-瓦尔;布雷特·L·托尔;马克·J·查尼;巴鲁赫·齐弗;亚力山大·海内克;米林德·吉尔卡;西蒙·鲁巴诺维奇 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F9/30 | 分类号: | G06F9/30 |
代理公司: | 11258 北京东方亿思知识产权代理有限责任公司 | 代理人: | 姜飞<国际申请>=PCT/US2017/ |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据元素位置 源矩阵 操作数标识符 操作数 块片 加法 矩阵 解码 目标矩阵 乘法 指令 减法 相加 电路 第一数据 结果存储 解码电路 矩阵运算 元素矩阵 操作码 字段 | ||
本文详述的实施例涉及矩阵运算。特别地,描述了对于矩阵(块片)加法、减法和乘法的支持。例如,详述了支持用于逐元素矩阵(块片)加法、减法和乘法的指令的电路。在一些实施例中,对于矩阵(块片)加法,解码电路将对具有用于操作码、第一源矩阵操作数标识符、第二源矩阵操作数标识符和目标矩阵操作数标识符的字段的指令进行解码;并且执行电路将执行经解码的指令以针对所标识的第一源矩阵操作数的每个数据元素位置执行如下操作:将该数据元素位置处的第一数据值与所标识的第二源矩阵操作数的对应数据元素位置处的第二数据值相加,并且将相加的结果存储到所标识的目标矩阵操作数的对应数据元素位置中。
技术领域
发明领域总地涉及计算机处理器架构,并且更具体地涉及矩阵操作。
背景技术
矩阵在诸如机器学习和其他批量数据处理之类的许多计算任务中日益重要。
附图说明
通过示例而非限制的方式在附图的各图中图示本发明,在附图中相似的标记指示类似的元素,并且在附图中:
图1图示配置的块片(tile)的实施例;
图2图示矩阵存储的若干示例;
图3图示利用矩阵(块片)运算加速器的系统的实施例;
图4和图5示出使用矩阵运算加速器如何共享存储器的不同实施例;
图6图示使用块片(“TMMA”)的矩阵乘法累加运算的实施例;
图7图示链式融合乘法累加指令的迭代的执行的子集的实施例;
图8图示链式融合乘法累加指令的迭代的执行的子集的实施例;
图9图示链式融合乘法累加指令的迭代的执行的子集的实施例;
图10图示链式融合乘法累加指令的迭代的执行的子集的实施例;
图11图示根据实施例的二次幂大小的SIMD实施方式,其中累加器使用大于乘法器的输入的输入大小;
图12图示利用矩阵运算电路的系统的实施例;
图13图示使用块片来支持矩阵运算的处理器核流水线的实施例;
图14图示使用块片来支持矩阵运算的处理器核流水线的实施例;
图15图示以行主要格式和列主要格式表达的矩阵的示例;
图16图示矩阵(块片)的使用的示例;
图17图示矩阵(块片)的使用的方法的实施例;
图18图示TILECONFIG指令的示例性执行;
图19(A)至图19(D)图示寄存器的示例;
图20图示要支持的矩阵(块片)的描述的实施例;
图21图示由处理器执行来处理TILECONFIG指令的方法的实施例;
图22图示使用存储器寻址来执行TILECONFIG指令的更详细描述;
图23图示用于执行TILECONFIG指令的示例性伪代码;
图24图示TILEADD指令的示例性执行;
图25图示由处理器执行来处理TILEADD指令的方法的实施例;
图26图示描述由处理器执行来处理TILEADD指令的方法的示例过程;
图27图示用于当源矩阵(块片)操作数包含单精度元素时执行TILEADD运算的示例方法;
图28图示TILESUB指令的示例性执行;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780088609.0/2.html,转载请声明来源钻瓜专利网。