[发明专利]高性能计算机系统中不满足计算精度要求的结点检测方法有效
申请号: | 201210041912.4 | 申请日: | 2012-02-23 |
公开(公告)号: | CN102646060A | 公开(公告)日: | 2012-08-22 |
发明(设计)人: | 刘杰;迟利华;胡庆丰;徐涵;晏益慧;龚春叶;杨博;赵文闻 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 国防科技大学专利服务中心 43202 | 代理人: | 郭敏 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 性能 计算机系统 不满足 计算 精度 要求 结点 检测 方法 | ||
技术领域
本发明涉及一种高性能计算机系统中不满足计算精度要求的问题结点检测方法,尤指基于并行程序的加载运行,能够快速定位不能满足用户计算精度问题要求的计算结点的检测方法。
背景技术
高性能计算机系统计算精度问题指用户并行应用程序在高性能计算机系统上的计算精度不能满足用户需求的问题,是由于少数计算结点的计算精度错误或结点间的连接引起的问题。
高性能计算机系统结构复杂,计算精度涉及用户程序运行结果的可信度,是用户首先关心的问题。计算精度既涉及单机运算,也涉及多机协同计算;既和计算结点相关,也和通信网络相关;既需要MPI(Message Passing Interface)并行环境,也需要OpenMP共享计算环境或CUDA(Compute Unified Device Architecture)等其他并行计算环境;既要考虑串行编译器的影响,又要考虑MPI、OpenMP和CUDA等并行编译的影响;既涉及本地多级存储结构,又涉及远地存储结构。计算结果的精度对高性能计算机系统是否具有可用性至关重要。
目前对计算精度的研究主要集中在提高计算精度的方法,如顶层设计提高计算精度方法,为避免舍入误差造成模拟计算的不可靠性,从应用软件角度必须研究高精度偏微分离散格式和求解方法,尽量减少截断误差,并从程序设计角度对算术运算精度要求敏感的核心部分考虑采用高于64位的浮点运算,从系统研制角度则必须考虑对超64位字长的算术运算的支持。从应用和系统设计着手提高计算精度,如果系统出现互连网络等系统级错误时,得到错误的计算结果,无法定位出现错误的计算结点。
对高性能计算机系统的精度是否满足用户要求,主要采用计算精度对比法和国际基准程序测试法:
(1)计算精度对比法。使用基于用户需求研制的核心算法并行程序、测试程序和典型应用程序在国内国外已投入运行的高性能计算机系统上运行,保存计算结果,在被测试的系统上使用同等规模的问题进行计算,然后进行计算结果比对,具有相同的有效数字,就认为计算结果正确。目前要测试的高性能计算机系统可能远大于已投入运行的系统,所计算的问题可能在已投入运行的机器上无法运行,得不到可供参考的计算结果。
(2)国际基准程序测试法。选择国际上的基准测试程序对高性能计算机系统的计算精度进行测试,基准测试程序中有标准的计算结果,测试完成后会自动报告是否成功,如果成功说明计算结果正确。该方法可以知道计算结果的正确性,但不知道哪些计算结点造成计算结果不正确,无法定位出错误的计算结点。
上述方法只能告诉用户高性能计算机系统是否满足用户的需求,不能实现自动检测功能,目前国际上还缺乏将计算精度有问题的计算结点自动检测出来的方法。如何能够既告诉用户高性能计算机系统的精度是否满足用户的要求,又对计算精度不满足要求的计算结点进行自动检测是本领域技术人员极为关注的技术问题。
发明内容
本发明要解决的技术问题在于:提出一种高性能计算机系统中不满足计算精度要求的结点检测方法,使用并行程序加载运行,自动定位不能满足计算精度要求的少数计算结点。
为了解决上述技术问题,本发明的技术方案为:根据高性能计算机系统的并行计算环境,采用覆盖MPI、OpenMP和加速器的基准测试程序,加载运行基准测试程序,自动检测计算精度问题,定位不满足计算精度要求的计算结点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210041912.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铝合金平开门窗导流板
- 下一篇:一种铝合金不锈钢复合型材门