[发明专利]用于对线程同步的阶段进行协调的技术在审
申请号: | 202110295938.0 | 申请日: | 2021-03-19 |
公开(公告)号: | CN113495761A | 公开(公告)日: | 2021-10-12 |
发明(设计)人: | H·C·爱德华兹 | 申请(专利权)人: | 辉达公司 |
主分类号: | G06F9/38 | 分类号: | G06F9/38;G06F9/48 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 高伟 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 线程 同步 阶段 进行 协调 技术 | ||
本发明公开了用于对线程同步的阶段进行协调的技术,具体公开了用于利用应用程序编程接口执行并行计算(诸如CUDA)来在一个或更多个程序中执行数据相关的并行运算而不依赖于一个或更多个程序之间的同步操作的装置、系统和技术。例如,至少一个实施例涉及处理器或计算系统,其用于确定线程组中的哪个线程最后完成修改共享数据,并且选择该线程来执行来自所述线程组的附加的数据相关计算。
技术领域
至少一个实施例涉及用于在利用应用程序编程接口来执行并行计算的一个或更多个程序(诸如CUDA)中执行数据相关的并行运算的处理资源。例如,至少一个实施例涉及处理器或计算系统,所述处理器或计算系统用于使用本文所述的各种新颖技术,基于程序组中的程序在执行中的位置来确定所述程序组中的哪些程序将执行共享的数据相关运算。
背景技术
并行程序包含并行计算不同数据值的多个线程。这些数据值通常作为较大计算的部分在每个线程之间完全地或部分地共享。共享存储器用于存储这些共享数据值,且在一些示例中,每个线程必须向共享存储器复制和从共享存储器复制以确保其在最新数据上运算。共享存储器依赖性已经呈现并行计算平台(诸如图形处理单元(GPU))中的性能瓶颈。在执行期间,在并行计算平台上运行的多线程程序执行许多昂贵的同步运算以确保由每个线程使用的任何共享数据是当前的。
附图说明
图1是根据至少一个实施例的示出在图形处理单元(GPU)上的经典并行计算环境中的线程同步的框图;
图2A是根据至少一个实施例的示出执行包含具有同步的序言和结语运算两者的运算的多个线程的框图;
图2B是根据至少一个实施例的示出使用在此描述的用于线程数据管理的各种新颖技术执行包含序言和结语运算的运算的多个线程的框图;
图3是根据至少一个实施例的示出确定用于执行序言运算的线程的框图;
图4是根据至少一个实施例的示出确定用于安全地执行结语运算的线程的框图;
图5示出根据至少一个实施例的用于确定线程组中用于执行序言和结语运算的一个或更多个线程的过程;
图6示出了根据至少一个实施例的示例性数据中心;
图7示出了根据至少一个实施例的处理系统;
图8示出了根据至少一个实施例的计算机系统;
图9示出了根据至少一个实施例的系统;
图10示出了根据至少一个实施例的示例性集成电路;
图11示出了根据至少一个实施例的计算系统;
图12示出了根据至少一个实施例的APU;
图13示出了根据至少一个实施例的CPU;
图14示出了根据至少一个实施例的示例性加速器集成切片;
图15A-15B示出了根据至少一个实施例的示例性图形处理器;
图16A示出了根据至少一个实施例的图形核心;
图16B示出了根据至少一个实施例的GPGPU;
图17A示出了根据至少一个实施例的并行处理器;
图17B示出了根据至少一个实施例的处理集群;
图17C示出了根据至少一个实施例的图形多处理器;
图18示出了根据至少一个实施例的图形处理器;
图19示出了根据至少一个实施例的处理器;
图20示出了根据至少一个实施例的处理器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辉达公司,未经辉达公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110295938.0/2.html,转载请声明来源钻瓜专利网。