[发明专利]算力服务器的算力监控方法、装置及存储介质有效
| 申请号: | 202211701367.7 | 申请日: | 2022-12-28 |
| 公开(公告)号: | CN115794561B | 公开(公告)日: | 2023-08-04 |
| 发明(设计)人: | 汪福全;刘明 | 申请(专利权)人: | 声龙(新加坡)私人有限公司 |
| 主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/34 |
| 代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 胡艳华;解婷婷 |
| 地址: | 北京市海淀区北*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 服务器 监控 方法 装置 存储 介质 | ||
1.一种算力服务器的算力监控方法,包括:
在算力服务器每次完成计算任务后,实时计算算力服务器四个维度的算力并生成算力运行历史数据;其中,所述四个维度分别是:整机级、算力板级、计算芯片级和计算单元级;
根据所述算力运行历史数据判断所述算力服务器是否出现四个维度中至少一个维度的算力异常,是则查询对应维度的异常处理策略,根据查询到的异常处理策略进行对应维度的告警处理;
其中,所述算力服务器包括至少一块算力板,任意一块算力板包括至少一个计算芯片,任意一个计算芯片包括至少一个计算单元;所述算力服务器的整机级算力是所述算力服务器上所有算力板的算力的累加和,任意一块算力板的算力是所述算力板上所有计算芯片的算力的累加和,任意一个计算芯片的算力是所述计算芯片上所有计算单元的算力的累加和;
计算任意一个计算单元的算力,包括:
在所述计算单元完成第n次计算任务后,计算该计算单元从开机到完成第n次计算任务的平均算力Fn;
an是第n次计算任务的难度值;Tn是从开机到完成第n次计算任务经过的时间,单位秒;
计算所述计算单元最近m次计算任务的平均算力Fm;
将所述计算单元最近m次计算任务的平均算力Fm作为所述计算单元的算力;其中,所述计算任务是基于Ethash算法的工作量证明计算任务。
2.如权利要求1所述的方法,其特征在于:
所述根据所述算力运行历史数据判断所述算力服务器是否出现四个维度中至少一个维度的算力异常,包括:
对任意一个计算单元,如果所述计算单元的算力小于设计值,且二者之间的差值大于第一阈值,则判定所述计算单元算力异常;
对任意一个计算芯片,如果所述计算芯片的算力小于设计值,且二者之间的差值大于第二阈值,则判定所述计算芯片的算力异常,将该计算芯片的异常统计计数器加1;
对任意一个算力板,如果所述算力板的算力小于设计值,且二者之间的差值大于第三阈值,则判定所述算力板的算力异常,将该算力板的异常统计计数器加1;
如果所述算力服务器的整机算力小于设计值,且二者之间的差值大于第四阈值,则判定所述算力服务器的整机算力异常。
3.如权利要求2所述的方法,其特征在于:
根据查询到的异常处理策略进行对应维度的告警处理,包括:
如果检测到某个计算单元算力异常,则直接进行该计算单元的算力告警。
4.如权利要求2所述的方法,其特征在于:
根据查询到的异常处理策略进行对应维度的告警处理,包括:
如果检测到某个计算芯片算力异常,则查询该计算芯片的异常统计计数器,当该计算芯片的异常统计计数器的计数值超过第一计数阈值时,进行该计算芯片的算力告警。
5.如权利要求2所述的方法,其特征在于:
根据查询到的异常处理策略进行对应维度的告警处理,包括:
如果检测到某个算力板算力异常,则查询该算力板的异常统计计数器,当该算力板的异常统计计数器的计数值超过第二计数阈值且该算力板上出现算力异常的计算芯片的数量超过第三计数阈值时,进行该算力板的算力告警。
6.如权利要求2所述的方法,其特征在于:
根据查询到的异常处理策略进行对应维度的告警处理,包括:
如果检测到算力服务器整机算力异常,则直接进行该算力服务器的整机算力告警。
7.一种算力服务器的算力监控装置,包括:存储器及处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现上述权利要求1-6中任一项所述的算力服务器的算力监控方法的步骤。
8.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-6中任一项所述的算力服务器的算力监控方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于声龙(新加坡)私人有限公司,未经声龙(新加坡)私人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211701367.7/1.html,转载请声明来源钻瓜专利网。





