[发明专利]图形处理器中适应可扩展计算单元的固定功能单元装置有效
| 申请号: | 201810852933.1 | 申请日: | 2018-07-30 |
| 公开(公告)号: | CN109191363B | 公开(公告)日: | 2023-05-23 |
| 发明(设计)人: | 殷诚信;石小刚;黄光新 | 申请(专利权)人: | 南京军微半导体科技有限公司 |
| 主分类号: | G06T1/20 | 分类号: | G06T1/20 |
| 代理公司: | 合肥禾知知识产权代理事务所(特殊普通合伙) 34246 | 代理人: | 卢双双 |
| 地址: | 210000 江苏省南京市江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 图形 处理器 适应 扩展 计算 单元 固定 功能 装置 | ||
本发明公开了一种图形处理器中适应可扩展计算单元的固定功能单元装置。包括分布在计算阵列GCA中的固定功能单元和图元同步分发单元;所述的计算阵列GCA中的固定功能单元由每个CCU中的固定功能处理单元PCVC、图元信息建立单元SETUP和扫描转换单元组成SC组成,PCVC接收染色后的顶点实现图元装配、裁剪、消隐和视窗变化功能,PCVC生成的图元再由SETUP单元生成图元的边界盒以及建立图元的边方程系数和属性方程系数等图元信息,SETUP将图元信息发送给PSD,PSD根据VDPR配置过来的GCA中顶点染色线程的顶点索引信息对图元重排序,排序后的图元信息按照屏幕分块的方式分发给对应的CCU。本发明能适用图形处理器中计算单元良好的可扩展性,同时提高图形处理器中固定功能单元的性能。
技术领域
本发明涉及的是图形芯片技术领域,具体涉及一种图形处理器中适应可扩展计算单元的固定功能单元装置。
背景技术
图形处理器组成如图1所示,通过这些功能单元实现图形流水线的操作。前端处理器接收CPU端图形驱动程序发送过来的命令和数据,如果是画图命令则由顶点线程生成调度器(vertex thread creator and dispatcher, VTCD )生成顶点染色线程发送给由众多计算单元组成的计算簇(Cluster Compute Unit, CCU)。CCU接收新的线程后会读取和申请顶点染色所需的资源。资源通过交叉互联单元(Cross Bar Unit, CXB)从图形动态存储单元(Graphics DDR,GDDR)中读取。资源获取完毕后CCU中的计算单元执行顶点染色程序,染色后的顶点属性再通过CXB发送给固定功能处理单元(Primitive and Rastizer, PAR)。PAR主要实现染色后顶点的图元装配(Primitives Assembler, PA),剪裁(Clipping), 视窗变换(Viewport transform),消隐(Culling),图元的光栅化(Rasterizer) 等功能(见图2)。光栅化得到的片段经过片段染色调度器(Fragment Dispatcher, FDPR)按照调度规则发送给CCU,CCU中计算单元同样是在各种资源获取完毕时执行片段染色程序。片段染色程序执行完成后,染色后片段属性通过CXB发送给片段操作(ROP, raster operations),ROP包括Alpha测试,深度测试(Z Test),混合(Blend)等功能,完成这些功能后片段写入到GDDR中。至此,整个图形流水操作完成。
图形处理器拥有良好的计算处理能力,这也导致了图形处理器能够很快地应用于通用计算中。同时由于图形处理器中计算单元具有好的可扩展性,所以图形处理器通常是通过增加计算单元的数量来提高处理器的通用计算能力。所以当图形流水线中各种染色程序(顶点染色,片段染色等)的性能的提升时,不管是输出的顶点属性,还是片段染色的需求都是成倍的增加。当固定功能单元的处理能力不能相应地满足扩展计算单元染色程序的性能的提升时,固定单元的性能将成为整个处理器的瓶颈。
综上所述,本发明设计了一种图形处理器中适应可扩展计算单元的固定功能单元装置。
发明内容
针对现有技术上存在的不足,本发明目的是在于提供一种图形处理器中适应可扩展计算单元的固定功能单元装置,能适用图形处理器中计算单元良好的可扩展性,同时提高图形处理器中固定功能单元的性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京军微半导体科技有限公司,未经南京军微半导体科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810852933.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多个ROP的并行调度方法
- 下一篇:加速人工智能处理器的硬件架构





