[发明专利]使用脉动阵列在并行计算机器中计算高效的跨通道运算在审
申请号: | 202011558163.3 | 申请日: | 2020-12-25 |
公开(公告)号: | CN113590198A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | S·马伊尤兰;J·帕拉;S·帕尔;C·古拉姆 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F9/38 | 分类号: | G06F9/38 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘瑜 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 脉动 阵列 并行 计算 机器 高效 通道 运算 | ||
1.一种装置,包括:
多个寄存器;以及
可通信地耦合到所述多个寄存器的一个或多个处理元件,所述一个或多个处理元件包括:
脉动阵列电路,其用于对从所述多个寄存器中的单个源寄存器接收的源数据执行跨通道运算,所述脉动阵列电路被修改以从所述单个源寄存器接收输入,并且将所述单个源寄存器的元素路由到所述脉动阵列电路中的多个通道。
2.根据权利要求1所述的装置,其中,所述脉动阵列电路被修改以向所述多个寄存器中的目标寄存器的所有元素广播来自所述脉动阵列电路的最终一行的结果值。
3.根据权利要求1所述的装置,其中,所述一个或多个处理元件被包含在图形处理单元(GPU)中。
4.根据权利要求1所述的装置,其中,通过修改所述脉动阵列电路的数据处理单元(DPU)以对所述源数据执行所述跨通道运算,并且修改所述脉动阵列电路的DPU的路由以在所述脉动阵列电路的不同阶段处从所述单个源寄存器的不同通道接收输入,所述脉动阵列电路针对所述跨通道运算被修改。
5.根据权利要求4所述的装置,其中,所述脉动阵列电路的不同阶段各自接收所述单个源寄存器的要对其执行所述跨通道运算的不同元素。
6.根据权利要求1所述的装置,其中,所述脉动阵列电路的通道的子集执行所述跨通道运算,并且其中,所述脉动阵列电路的未被包含在所述通道的子集中的其他通道被禁用。
7.根据权利要求1所述的装置,其中,所述跨通道运算包括最大运算、最小运算或相等运算中的至少一个。
8.根据权利要求1所述的装置,其中,所述脉动阵列电路的最终一个阶段的第一通道被修改以从所述脉动阵列电路的前一阶段的多于一个通道接收输入。
9.根据权利要求1所述的装置,其中,所述装置是单指令多数据(SIMD)机器。
10.根据权利要求1所述的装置,其中,所述装置是单指令多线程(SIMT)机器。
11.一种方法,包括:
在针对跨通道运算被修改的脉动阵列硬件电路处,从单个源寄存器接收源数据;
在所述脉动阵列硬件电路的通道的子集处对所述源数据执行所述跨通道运算;
将所述跨通道运算的结果传递到所述脉动阵列硬件电路的后续阶段;以及
向目标寄存器的每个通道广播所述脉动阵列硬件电路的最后一个阶段的结果。
12.根据权利要求11所述的方法,其中,所述后续阶段各自接收所述单个源寄存器的要对其执行运算的不同元素。
13.根据权利要求11所述的方法,其中,所述脉动阵列硬件电路的未被包含在所述通道的子集中的其他通道被禁用。
14.根据权利要求11所述的方法,其中,所述脉动阵列硬件电路是图形处理单元(GPU)的一部分。
15.根据权利要求11所述的方法,其中,所述脉动阵列电路的最终一个阶段的第一通道被修改以从所述脉动阵列电路的前一阶段的多于一个通道接收输入。
16.根据权利要求11所述的方法,其中,通过修改所述脉动阵列硬件电路的数据处理单元(DPU)以对所述源数据执行所述跨通道运算,并且修改所述脉动阵列硬件电路的DPU的路由以在所述脉动阵列硬件电路的不同阶段处从所述单个源寄存器的不同通道接收输入,所述脉动阵列硬件电路针对所述跨通道运算被修改。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011558163.3/1.html,转载请声明来源钻瓜专利网。