[发明专利]一种基于机器学习和文本分类的服务故障定位方法及装置在审
申请号: | 202110392903.9 | 申请日: | 2021-04-13 |
公开(公告)号: | CN113094198A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 许璟亮;廖鸿存;皇甫晓洁;周魁 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06N20/00;G06N3/04;G06N3/08;G06F40/279;G06K9/62 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 任默闻;王涛 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 文本 分类 服务 故障 定位 方法 装置 | ||
本发明公开了一种基于机器学习和文本分类的服务故障定位方法及装置,可以用于集群故障定位技术领域,其中,该方法包括:抽取运维数据;根据所述运维数据实时获取集群日志数据及时序运行数据;根据所述集群日志数据进行故障日志解析,得到服务运行时的监控指标,并根据服务执行的起止日志信息,得到服务执行耗时指标;根据所述时序运行数据,得到容器级和服务级的资源监控指标;根据所述服务运行时的监控指标、服务执行耗时指标及资源监控指标,利用故障判断模型对故障根因进行分析判断,得到故障根因分析结果;根据所述故障根因分析结果,利用自然语言分类算法解析日志信息中的错误字段信息,对故障根因进行定位。
技术领域
本发明涉及集群故障定位技术领域,尤指一种基于机器学习和文本分类的服务故障定位方法及装置。
背景技术
在现有技术中,故障定位通常采用指标监控加人工分析判断的方式进行,如对服务器运行内存、CPU进行监控,超过阈值触发报警,然后人工介入进行故障分析和修复。这种处理方式至少存在以下不足:故障定位慢,通常需要人工接入才能进行故障原因分类定位和判断。检出率低,由于采用固定的指标监控算法,无法覆盖全部的场景,故障检出率有限;如CPU指标监控通常只能采取静态临界值。误报率高,对于内存CPU毛刺场景无法有效识别,造成故障检测误报率较高。
综上来看,亟需一种可以克服现有技术存在的不足,具有定位速度快,检出率高,误报率低的故障定位方案。
发明内容
针对现有故障定位存在的缺陷,为解决传统方式大量依赖人工介入,监控故障检出率低,问题定位慢的问题,本发明提出了一种基于机器学习和文本分类的服务故障定位方法及装置;本发明通过自主开发数据采集、数据预处理、预测与监控报警等处理方法,能够对实时服务信息进行相关数据采集、预处理、故障分析和故障分类等操作,实现对系统故障的快速定位和分类,可以有效提高系统报警准确率和有效性。
具体的,在本发明实施例的第一方面,提出了一种基于机器学习和文本分类的服务故障定位方法,该方法包括:
抽取运维数据;
根据所述运维数据实时获取集群日志数据及时序运行数据;
根据所述集群日志数据进行故障日志解析,得到服务运行时的监控指标,并根据服务执行的起止日志信息,得到服务执行耗时指标;
根据所述时序运行数据,得到容器级和服务级的资源监控指标;
根据所述服务运行时的监控指标、服务执行耗时指标及资源监控指标,利用故障判断模型对故障根因进行分析判断,得到故障根因分析结果;
根据所述故障根因分析结果,利用自然语言分类算法解析日志信息中的错误字段信息,对故障根因进行定位。
进一步的,抽取的运维数据至少包括:应用信息、节点信息及日志信息;
该方法还包括:
对所述应用信息、节点信息及日志信息进行格式化处理。
进一步的,根据所述运维数据实时获取集群日志数据及时序运行数据,包括:
实时获取日志信息流入并存储到ES集群,得到集群日志数据;
实时获取运行容器CPU、内存及磁盘IO信息。
进一步的,服务运行时的监控指标至少包括:请求书、请求成功率、请求正确率、请求响应时间及错误信息。
进一步的,所述容器级和服务级的资源监控指标至少包括:容器CPU、容器内存及宿主机IO在内的资源监控指标。
进一步的,根据所述服务运行时的监控指标、服务执行耗时指标及资源监控指标,利用故障判断模型对故障根因进行分析判断,得到故障根因分析结果,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110392903.9/2.html,转载请声明来源钻瓜专利网。