[发明专利]一种人工智能开发平台的监控管理方法及系统有效
申请号: | 202010132501.0 | 申请日: | 2020-02-29 |
公开(公告)号: | CN111324513B | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 孙辽东 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F9/455 |
代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 黄晓燕 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 人工智能 开发 平台 监控 管理 方法 系统 | ||
本发明涉及服务器技术领域,提供一种人工智能开发平台的监控管理方法及系统,方法包括:对数据采集模块进行源码优化,并利用优化的数据采集模块进行数据采集;将数据写入多节点部署的时间序列数据库InfluxDB,时间序列数据库InfluxDB处于高可用状态;根据用户选取的聚合分析的时间节点,从所述时间序列数据库InfluxDB中采集包括集群、存储节点和GPU卡在内的各个资源的使用数据,同时对采集到的使用数据进行聚合分析,并通过UI界面展示聚合分析结果,从而不仅解决监控数据安全性和监控数据价值性问题,并且实时提供给用户整个集群资源的使用情况,有效提高计算资源的利用率,减少业务成本,提高产品竞争力。
技术领域
本发明属于服务器技术领域,尤其涉及一种人工智能开发平台的监控管理方法及系统。
背景技术
人工智能开发平台AIStation,将为用户提供更加智能的AI容器化部署以及更具效率的分布式训练。监控管理模块作为AIStation的重要模块,需要实时监控整个集群中节点的运行情况和资源的使用情况,有效的提高计算资源的利用率和生产率;并且需要具有处理大规模集群产生的监控数据,保证监控数据的安全性和数据价值性的能力。
但是,人工智能开发平台在数据采集以及数据存储方面存在如下缺陷:
(1)数据抓取过程中,数据采集场景单一,采集时间粒度无法控制在纳秒级,而且采集模块内存数据容易丢失,而且自身占据内存过大,影响采集数据的存储;
(2)当存储节点故障时,无法正常提供监控管理业务,给用户造成较大损失。
发明内容
针对现有技术中的缺陷,本发明提供了一种人工智能开发平台的监控管理方法,旨在解决现有技术中数据采集场景单一,采集时间粒度无法控制在纳秒级,而且采集模块内存数据容易丢失,同时当存储节点故障时,无法正常提供监控管理业务的问题。
本发明所提供的技术方案是:一种人工智能开发平台的监控管理方法,所述方法包括下述步骤:
对数据采集模块进行源码优化,并利用优化的数据采集模块进行数据采集,其中采集到的数据为包括集群、存储节点和GPU卡在内的各个资源的使用数据;
将采集到的数据写入多节点部署的时间序列数据库,所述时间序列数据库处于高可用状态;
根据用户选取的聚合分析的时间节点,从所述时间序列数据库中采集包括集群、存储节点和GPU卡在内的各个资源的使用数据,同时对采集到的使用数据进行聚合分析,并通过UI界面展示聚合分析结果。
作为一种改进的方案,所述数据采集模块的源码优化内容包括自定义数据采集脚本、数据采集方式的修改和数据采集模块内存管理方式的修改;
其中,修改后的数据采集方式满足指定场景的数据采集和纳米级时间粒度的采集,所述自定义数据采集脚本所采集的数据包括节点中CPU的温度、GPU卡的性能数据以及容器相关的性能数据,所述指定场景包括GPU存在不可用情况的场景和由于网络问题导致GPU卡训练速度不足的场景;
内存管理方式的修改包括在所述数据采集模块内增加一个中间文件,所述中间文件用来存储数据采集模块中的内存数据;
所述时间序列数据库为InfluxDB。
作为一种改进的方案,所述利用优化的数据采集模块进行数据采集的步骤具体包括下述步骤:
采集符合源码优化的数据采集模块内存结构的数据;
通过对所述数据采集模块内存管理方式的修改,在将采集的数据写入时间序列数据库InfluxDB之前,将所述数据采集模块的内存数据写入预先配置的中间文件。
作为一种改进的方案,所述时间序列数据库InfluxDB的高可用状态的设置步骤具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010132501.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种衬衫面料用熨烫支架
- 下一篇:一种纺织机用的连接机构