[发明专利]运维指标监控模型训练方法、装置及数据滤波方法在审
申请号: | 202111649907.7 | 申请日: | 2021-12-29 |
公开(公告)号: | CN114330662A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 杨槿 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06F11/34 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 张文华 |
地址: | 100033*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 指标 监控 模型 训练 方法 装置 数据 滤波 | ||
本发明公开了一种运维指标监控模型训练方法、装置及数据滤波方法。其中,该方法包括:确定第一训练数据集;确定目标滤波器,其中,目标滤波器中包括空间核,值域核和时域核;基于目标滤波器对第一训练数据集进行滤波,得到第二训练数据集;基于第二训练数据集对运维指标监控模型进行训练。本发明解决了由于现有技术中不能有效降低波动噪声数据对模型的不利影响造成的模型训练效果不佳的技术问题。
技术领域
本发明涉及IT运维领域,具体而言,涉及一种运维指标监控模型训练方法、装置及数据滤波方法。
背景技术
目前,企业内传统的运维工具,例如zabbix、prometheus、solarwinds等一般基于阈值告警,即告警占用率超过某一阈值后,并且触发一段时间后,通过短信、电话、即时通信接口等方式告知运维人员。这种告警方式集中存在告警的有效性不高,噪声、重复告警数量多的问题。例如以下场景:
一些指标短期在监控阈值附件反复波动,容易持续产生大量的重复告警。
一些监控指标的劣化速度相当慢,例如内存占用从90%增长至95%需要超过一个月甚至更久的情况,设定监控阈值为90%后会持续产生大量重复告警。
上述低价值、甚至无效的告警在本专利统称为噪声告警。总之,大量重复、低价值的告警会严重降低运维人员的敏感度,可能造成遗漏关注关键告警信息。
现有技术中虽然也有一些方法可用于告警噪声的抑制,但存在以下不足:
1)预测模型事先推定监控指标的函数模型和个别参数取值,经常出现预测结果与监控指标的真实分布不符的情况,用于噪声抑制的效果不佳。
2)难以对不同大小时间窗口的监控指标作出有效预测,通常只能够对一定时效内的监控指标进行预测。上述专利授权基于单一时间窗口进行预测,难以同时兼顾短、中、长期的故障的预测能力。例如,一些专利方法在小时级别的数据集上有较好的预测效果,能够预测未来数小时内监控指标的变化趋势,但是对于短时间内劣化严重的监控指标和数天内缓慢劣化的监控指标难以做出有效预测,或预测精度与实际有较大出入。
综上,一方面传统的时间序列分析、回归分析等技术,受限于模型能力限制,在预测能力上存在缺陷。另一方面,循环神经网络(LSTM\GRU)模型虽然在时间序列型数据预测、NLP等领域有着优异的表现,但是IT监控预测场景下,却存在着以下问题:
一些监控指标的频繁波动,容易对循环神经网络的门控、模型状态造成影响,影响预测精度。例如,服务器启动关闭进程时,CPU、内存等指标在会有频繁的波动,会对传统的循环网络模型产生干扰。
大时间窗口下,由于训练数据增大,需要训练的参数量也随之增多,模型训练的耗时增大,不利于生产环境下的快测预测和响应。
其次,循环时间网络普遍面临的问题:若采集的样本点间隔时间不等,则预测效果会变得很差。在实际生产中,若发生采集系统的故障等原因,造成数据采集间隔时间不等,则会严重降低预测精度。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种运维指标监控模型训练方法、装置及数据滤波方法,以至少解决由于现有技术中不能有效降低波动噪声数据对模型的不利影响造成的模型训练效果不佳的技术问题。
根据本发明实施例的一个方面,提供了一种运维指标监控模型训练方法,包括:确定第一训练数据集;确定目标滤波器,其中,目标滤波器中包括空间核,值域核和时域核;基于目标滤波器对第一训练数据集进行滤波,得到第二训练数据集;基于第二训练数据集对运维指标监控模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111649907.7/2.html,转载请声明来源钻瓜专利网。