[发明专利]一种GPU中显式独立掩码寄存器的掩码操作方法在审
申请号: | 201910512317.6 | 申请日: | 2019-06-13 |
公开(公告)号: | CN112083954A | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 殷诚信;王磊 | 申请(专利权)人: | 华夏芯(北京)通用处理器技术有限公司 |
主分类号: | G06F9/30 | 分类号: | G06F9/30 |
代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 陈娟 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 gpu 中显式 独立 掩码 寄存器 操作方法 | ||
1.一种GPU中显式独立掩码寄存器的掩码操作方法,其特征在于:包括以下步骤:
S1:每个GPU硬件线程可以访问各自的8个128比特位宽地独立掩码寄存器,记为$m0~$m7;
S2:所述$m0中数据默认为GPU硬件线程指令的执行掩码,可通过更改程序代码中指令的掩码地址字段MSA,来指定当前指令的执行掩码;
S3:利用指令分别实现对掩码寄存器进行归约运算、扩展运算、逻辑运算和通用向量寄存器之间数据移动,需要指定对应的掩码寄存器,同时保留最近父级掩码寄存器,并采用二叉树的方式处理子父级掩码关系;
S4:所述掩码寄存器使用超过8时,通过移动指令,将暂时不用的掩码操作数存储在所述通用向量通用寄存器中,当需要时再从所述通用向量寄存器中获取;
S5:利用向量执行单元实现掩码归约操作,完成掩码归约的通用和显式读取,避免带来指令发射开销,用户在剖析应用程序后,决定是否添加所述归约操作;
S6:显式的所述掩码寄存器处理条件控制时,将比较靠后的条件码存在所述掩码寄存器中,再生成真分支的指令序列的掩码和假分支指令序列的条件码,显式掩码避免了单一掩码被覆盖与覆盖后恢复的问题,降低所述向量通用寄存器和所述掩码寄存器之间的数据移动。
2.根据权利要求1所述的一种GPU中显式独立掩码寄存器的掩码操作方法,其特征在于:所述128比特的掩码和向量执行单元,按照SIMD16的并行方式组织,一个所述掩码寄存器可以覆盖8次向量单元的执行。
3.根据权利要求2所述的一种GPU中显式独立掩码寄存器的掩码操作方法,其特征在于:所述向量单元的向量指令发射时,判断该指令的掩码寄存器是否全零,若是全零则表明该指令不会有任何有效输出,对应指令的操作读取和执行都可避免。
4.根据权利要求2所述的一种GPU中显式独立掩码寄存器的掩码操作方法,其特征在于:所述SIMD16的宽度需进行归约,归约结果不为零时需要读取操作数和指令发射,即可使SIMD16的掩码处理完毕。
5.根据权利要求2所述的一种GPU中显式独立掩码寄存器的掩码操作方法,其特征在于:所述掩码归约指令可以在用户剖析后进一步避免指令发射前的低效的归约操作,即可使归约一定可以发挥前述性能和功耗优化作用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华夏芯(北京)通用处理器技术有限公司,未经华夏芯(北京)通用处理器技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910512317.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:消息处理方法及装置、终端、服务器
- 下一篇:一种混流器