[发明专利]用于机器学习操作的经优化计算硬件在审
| 申请号: | 201810427080.7 | 申请日: | 2018-05-07 |
| 公开(公告)号: | CN108805797A | 公开(公告)日: | 2018-11-13 |
| 发明(设计)人: | D·达斯;R·格拉姆温特;M·斯密尔安斯基;J·考博尔;D·穆迪盖雷;N·K·梅勒普迪;A·F·海奈克 | 申请(专利权)人: | 英特尔公司 |
| 主分类号: | G06T1/20 | 分类号: | G06T1/20;G06N3/08 |
| 代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 张欣;黄嵩泉 |
| 地址: | 美国加利*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 输入操作数 解码 单个指令 机器学习 计算设备 操作数 长度单元 获取单元 计算单元 解码单元 矩阵操作 优化计算 不相等 指令 输出 | ||
1.一种用于执行机器学习操作的计算设备,所述计算设备包括:
获取单元,所述获取单元用于获取具有多个输出操作数的单个指令,其中,所述多个输入操作数具有不相等的位长度,第一输入操作数具有第一位长度,并且第二输入操作数具有第二位长度;
解码单元,所述解码单元用于将所述单个指令解码成经解码的指令;
操作数长度单元,所述操作数长度单元用于确定所述第一位长度和所述第二位长度中的较小位长度;以及
计算单元,所述计算单元用于对所述多个输入操作数执行矩阵操作,以生成具有所述较小位长度的位长度的输出值。
2.如权利要求1所述的计算设备,其特征在于,所述单个指令用于使得所述计算单元对所述多个操作数执行至少二维的矩阵乘法操作。
3.如权利要求2所述的计算设备,其特征在于,所述单个指令用于使得所述计算单元执行至少一次乘-加操作。
4.如权利要求2所述的计算设备,其特征在于,所述单个指令用于使得所述计算单元执行至少一次乘法-累加操作。
5.如权利要求2所述的计算设备,其特征在于,所述单个指令用于使得所述计算单元执行至少二维的矩阵点积操作。
6.如权利要求1所述的计算设备,附加地包括精度配置单元,所述精度配置单元用于将精度配置提供给所述计算单元,所述精度配置单元用于配置所述计算单元内的功能单元的操作精度。
7.如权利要求1所述的计算设备,所述计算单元用于对所述多个操作数执行矩阵乘法操作,其中所述计算单元用于:
确定所述矩阵乘法操作的乘法操作是否具有零输入;以及
绕过具有所述零输入的所述乘法操作。
8.如权利要求7所述的计算设备,其特征在于,为了绕过具有所述零输入的所述乘法操作,所述计算单元绕过对具有所述零输入的所述乘法操作的调度。
9.如权利要求7所述的计算设备,其特征在于,为了绕过具有所述零输入的所述乘法操作,所述计算单元:
确定所述矩阵乘法操作的乘法操作是否具有零输入;并且
对于与所述零输入相关联的功能单元,将乘法操作操作码替换成无操作操作码。
10.一种执行数个轮次以在通用图形处理单元(GUGPU)上执行多轮次矩阵乘法操作的方法,所述方法包括:
在所述GPGPU内获取要被执行的单个指令;
解码所述指令以确定所述指令的类型;
响应于确定所述指令的类型,确定所述指令是包括乘法操作的多轮次矩阵指令,并确定是否有阈值数量的乘法操作具有零值输入操作数;
将不具有零值输入操作数的所述乘法操作压缩到减少数量的轮次中;以及
以减少数量的轮次来执行所述指令。
11.如权利要求10所述的方法,其特征在于,以所述减少数量的轮次来执行所述指令包括,当所述乘法操作中至少一半具有一个或多个零值输入操作数时,在单个轮次中执行双轮次矩阵乘法指令。
12.如权利要求10所述的方法,其特征在于,确定是否有阈值数量的乘法操作具有零值输入操作数包括:
将乘法操作的输入操作数与零进行比较;以及
将所述乘法操作标记为具有零输出。
13.如权利要求12所述的方法,其特征在于,将所述乘法操作标记为具有零输出包括,将标签施加到与所述乘法操作相关联的目的地寄存器。
14.如权利要求12所述的方法,其特征在于,将不具有零值输入操作数的所述乘法操作压缩到减少数量的轮次中包括:
将具有非零值的乘法操作调度到所述GPGPU的计算单元上;
绕过对具有零输出的乘法操作的调度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810427080.7/1.html,转载请声明来源钻瓜专利网。





