[发明专利]一种服务器压力测试方法与装置有效
| 申请号: | 201910580765.X | 申请日: | 2019-06-29 |
| 公开(公告)号: | CN110413462B | 公开(公告)日: | 2022-12-06 |
| 发明(设计)人: | 王继玉 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
| 主分类号: | G06F11/22 | 分类号: | G06F11/22 |
| 代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 刘小峰 |
| 地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 服务器 压力 测试 方法 装置 | ||
本发明公开了一种服务器压力测试方法与装置包括:为服务器提供压力测试环境;根据测试参数决定使用平稳加压方式或抖动加压方式测试服务器的GPU,或同时测试服务器的GPU、CPU、和内存;在测试过程中监控并显示服务器的工作参数,根据工作参数评价服务器的稳定性和可靠性。本发明能够针对不同服务器检测稳定性和可靠性,筛选出适于用作人工智能计算的服务器。
技术领域
本发明涉及计算机领域,更具体地,特别是指一种服务器压力测试方法与装置。
背景技术
人工智能需要在AI服务器上使用各种深度学习框架进行模型训练。由于模型训练需要使用大量数据集进行长时间的训练,同时使用分布式集群实现单机多卡和多机多卡训练,导致要求AI服务器具有高稳定性和高可靠性。如果训练因AI服务器而中断,会造成金钱和时间上的损失,但是现有技术缺乏高水平的检测AI服务器稳定性和可靠性的方法。
针对现有技术中服务器难以检测稳定性和可靠性的问题,目前尚未有有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种服务器压力测试方法与装置,能够针对不同服务器检测稳定性和可靠性,筛选出适于用作人工智能计算的服务器。
基于上述目的,本发明实施例的第一方面提供了一种服务器压力测试方法,包括执行以下步骤:
为服务器提供压力测试环境;
根据测试参数决定使用平稳加压方式或抖动加压方式测试服务器的GPU,或同时测试服务器的GPU、CPU、和内存;
在测试过程中监控并显示服务器的工作参数,根据工作参数评价服务器的稳定性和可靠性。
在一些实施方式中,测试参数包括测试模式信息;测试模式包括:使用平稳加压方式仅测试服务器的GPU的第一模式;使用抖动加压方式仅测试服务器的GPU的第二模式;使用平稳加压方式同时测试服务器的GPU、CPU、和内存的第三模式;和使用抖动加压方式同时测试服务器的GPU、CPU、和内存的第四模式。
在一些实施方式中,测试参数还包括运算参数;执行第一模式的压力测试包括以持续占用GPU的全部频率、显存和位宽的方式执行以下步骤:
基于运算参数确定被运算矩阵的形态,并执行被运算矩阵在其形态下的矩阵乘积;
基于运算参数累加矩阵乘积。
在一些实施方式中,执行第三模式的压力测试包括:在测试服务器的GPU的同时,还以相同的方式测试服务器的CPU和内存。
在一些实施方式中,测试参数还包括运算参数;执行第二模式的压力测试包括以在占用GPU的全部频率、显存和位宽,和不占用GPU的任何频率、显存和位宽之间进行多次突然切换的方式执行以下步骤:
基于运算参数确定被运算矩阵的形态,并执行被运算矩阵在其形态下的矩阵乘积;
基于运算参数累加矩阵乘积。
在一些实施方式中,执行第四模式的压力测试包括:在测试服务器的GPU的同时,还以相同的方式测试服务器的CPU和内存,其中服务器的GPU的压力抖动与服务器的CPU和内存的压力抖动同步。
在一些实施方式中,在占用GPU的全部频率、显存和位宽,和不占用GPU的任何频率、显存和位宽之间进行突然切换包括:使用神经网络框架训练数据集,根据神经网络框架的学习率和调整参数的更新速度而适应性地在占用GPU的全部频率、显存和位宽,和不占用GPU的任何频率、显存和位宽之间进行突然切换。
在一些实施方式中,工作参数包括以下至少之一:温度、功耗、频率;方法还包括:响应于存在超过相应的预设阈值的工作参数而以易于引起注意的方式显示超过相应的预设阈值的工作参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910580765.X/2.html,转载请声明来源钻瓜专利网。





