[发明专利]稀疏矩阵优化机制在审
申请号: | 202011010753.2 | 申请日: | 2020-09-23 |
公开(公告)号: | CN112950448A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | N·夏玛;S·帕尔;B·P·西蒙;T·D·维韦克 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06T1/20 | 分类号: | G06T1/20;G06F9/38;G06N3/04;G06N3/06;G06N3/08 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 李伟森;姜冰 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 稀疏 矩阵 优化 机制 | ||
公开了一种用来促进矩阵处理的设备。该设备包括矩阵加速器,所述矩阵加速器用来执行以下操作:接收输入矩阵数据、将所述输入矩阵数据变换为多个子块、检查所述子块的第一块以确定所述第一块是否包括稀疏数据、在确定所述第一块包括稀疏数据时选择第一贴片大小、以及基于所述第一贴片大小生成输出矩阵数据。
背景技术
神经网络可以被建模为在非循环图中连接的神经元的集合。神经网络可以接收输入(单个向量)并通过一系列隐藏层对其进行变换。每个隐藏层由一组神经元组成,其中每个神经元完全连接到前一层中的所有神经元,并且其中单层中的神经元完全独立地起作用并且不共享任何连接。卷积神经网络(CNN)类似于标准神经网络。每个神经元接收一些输入,执行点积,并且可选地以非线性跟随它。然而,CNN被明确地定制为处理输入图像数据。基于原始图像数据输入,网络输出对于输入数据的分类评分。
被配置为执行神经网络处理的并行数据处理系统可以包括图形处理器,其可以被配置为对图形数据执行特定操作,诸如例如线性插值、镶嵌、光栅化、纹理映射、深度测试等。图形处理器的部分可被制成可编程的,从而使得此类处理器能够支持用于处理顶点数据及片段数据的广泛多种操作。图形处理器内的完全可编程执行单元可被利用来执行各种并行处理操作。然而,为了最大化吞吐量,图形处理器可使用专门的固定功能逻辑单元来执行一些操作。
附图说明
为了可详细地理解本实施例的上述特征的方式,可通过参考实施例来得到对上文简要概述的实施例的更特定描述,实施例中的一些在附图中示出。然而,要注意,附图仅示出了典型的实施例,并且因此不应被认为是对其范围的限制。
图1是根据实施例的处理系统的框图;
图2A-2D示出了由本文中描述的实施例提供的计算系统和图形处理器;
图3A-3C示出了由实施例提供的附加图形处理器和计算加速器架构的框图;
图4是根据一些实施例的图形处理器的图形处理引擎的框图;
图5A-5B示出了根据实施例的包含在图形处理器核中采用的处理元件的阵列的线程执行逻辑500;
图6示出了根据实施例的附加执行单元600;
图7是示出根据一些实施例的图形处理器指令格式的框图;
图8是根据另一实施例的图形处理器的框图;
图9A和9B示出了根据一些实施例的图形处理器命令格式和命令序列;
图10示出了根据一些实施例的用于数据处理系统的示例性图形软件架构;
图11A-11D示出了根据实施例的集成电路封装组装件;
图12是示出根据实施例的在芯片集成电路上的示例性系统的框图;
图13A和13B是示出附加示例性图形处理器的框图;
图14示出了根据实施例的机器学习软件栈(software stack);
图15A-15B示出了示例性深度神经网络的层;
图16示出了示例性递归神经网络;
图17示出了深度神经网络的训练和部署;
图18是示出分布式学习的框图;
图19是根据实施例的数据处理系统的框图;
图20示出了根据实施例的由指令流水线执行的矩阵运算;
图21示出了拼贴的矩阵数据的一个实施例;
图22A-22C示出了子块的实施例;
图23A和23B示出了脉动流水线的实施方式;以及
图24是示出用于执行拼贴优化的一个实施例的流程图。
具体实施方式
在实施例中,矩阵加速器检查接收的矩阵数据并基于数据的稀疏性优化处理贴片大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011010753.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:车门打开和关闭装置
- 下一篇:控制装置、控制方法、非暂时性存储介质