[发明专利]计算优化机制有效
申请号: | 201911107740.4 | 申请日: | 2018-04-23 |
公开(公告)号: | CN110866861B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | A·R·阿普;A·考克;L·L·赫德;D·金;M·B·麦克弗森;J·C·韦斯特;陈峰;F·阿赫巴里;N·斯里尼瓦萨;N·R·萨蒂什;J·雷;P·T·唐;M·S·斯特里克兰;陈晓明;姚安邦;T·史佩斯曼 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06T1/20 | 分类号: | G06T1/20;G06N3/02 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈依心;黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算 优化 机制 | ||
公开了一种用于促进计算优化的装置。该装置包括分类逻辑,该分类逻辑用于基于浮点线程操作的位深度将处理线程分类到数个线程组中。
本申请是国家申请号为201810382773.9,题为“计算优化机制”的发明专利申请的分案申请。
技术领域
实施例总体涉及数据处理,并且更具体地涉及经由通用图形处理单元的数据处理。
背景技术
当前的并行图形数据处理包括被开发用于对图形数据执行特定操作的系统和方法,这些特定操作如例如线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,图形处理器的多个部分已变得可编程,从而使得这样的处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。
为进一步提高性能,图形处理器通常实施处理技术(比如,流水线操作),这些处理技术试图贯穿图形流水线的不同部分来并行处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中,多组并行线程试图尽可能经常地一起同步执行程序指令,以提高处理效率。用于SIMT架构的软件和硬件的一般性概述可以在Shane Cook的CUDA编程(CUDA Programming),第3章,第37-51页(2013年)中找到。
附图说明
为了以能够详细理解本实施例的以上记载特征的方式,可以通过参考实施例来对以上简要概括的实施例进行更具体的描述,这些实施例中的一些在所附附图中被示出。然而,应当注意,所附附图仅示出典型实施例,并因此不应被认为是对其范围的限制。
图1是示出了被配置成实现本文所述的实施例的一个或多个方面的计算机系统的框图;
图2A至图2D示出了根据实施例的并行处理器部件;
图3A至图3B是根据实施例的图形多处理器的框图;
图4A至图4F示出了其中多个GPU通信地耦合至多个多核处理器的示例性架构;
图5示出了根据实施例的图形处理流水线;
图6示出了根据实施例的采用优化机制的计算设备;
图7A和图7B示出了计算优化机制的实施例;
图8示出了根据实施例的机器学习软件栈;
图9示出了根据实施例的高度并行的通用图形处理单元;
图10示出了根据实施例的多GPU计算系统;
图11A至图11B示出了示例性深度神经网络的层;
图12示出了示例性递归神经网络;
图13示出了深度神经网络的训练和部署;
图14是示出分布式学习的框图;
图15示出了适合于使用训练模型执行推断的示例性推断用芯片上系统(SOC);
图16是根据实施例的处理系统的框图;
图17是根据实施例的处理器的框图;
图18是根据实施例的图形处理器的框图;
图19是根据一些实施例的图形处理器的图形处理引擎的框图;
图20是由附加实施例提供的图形处理器的框图;
图21示出了线程执行逻辑,所述线程执行逻辑包括在一些实施例中采用的处理元件阵列;
图22是示出了根据一些实施例的图形处理器指令格式的框图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911107740.4/2.html,转载请声明来源钻瓜专利网。