[发明专利]一种监控模型训练的方法及装置在审
| 申请号: | 201910458041.8 | 申请日: | 2019-05-29 |
| 公开(公告)号: | CN110175679A | 公开(公告)日: | 2019-08-27 |
| 发明(设计)人: | 周可;刘俊杰;邸帅;卢道和 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;G06Q40/02 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
| 地址: | 518027 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 监控指标 监控信息 告警 监控模型 上报 机器学习 接收机器 金融领域 模型训练 信息触发 学习平台 运维 报警 监控 保证 维护 | ||
1.一种监控模型训练的方法,其特征在于,所述方法包括:
接收机器学习平台中的至少一个节点分别上报的监控信息,所述监控信息为所述至少一个节点通过执行一个或多个模型训练任务生成的;
根据所述至少一个节点分别对应的监控信息,确定所述一个或多个模型训练任务的监控指标以及所述监控指标对应的信息;所述监控指标表征所述一个或多个模型训练任务的执行信息;
若确定所述监控指标对应的信息触发所述监控指标对应的告警规则,则执行告警。
2.根据权利要求1所述的方法,其特征在于,所述监控指标包括以下任意一项或任意多项:
所述一个或多个模型训练任务的执行结果、执行所述一个或多个模型训练任务所消耗的计算资源、执行所述一个或多个模型训练任务的数据存储情况。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述至少一个节点中处于运行状态的目标节点;
向所述目标节点发送状态请求消息,并接收所述目标节点根据所述状态请求消息发送的所述目标节点的执行状态;
若确定所述目标节点的执行状态触发所述目标节点对应的告警规则,则执行告警。
4.根据权利要求3所述的方法,其特征在于,所述确定所述目标节点的执行状态触发所述目标节点对应的告警规则,包括:
所述目标节点为模型训练启动节点,若所述目标节点在第一预设时间段内重启所述模型训练任务的次数大于预设次数,则确定所述目标节点的执行状态触发所述目标节点对应的告警规则;或者,
所述目标节点为模型训练任务管理节点,若所述目标节点无法执行所述模型训练任务的时长大于预设时长,则确定所述目标节点的执行状态触发所述目标节点对应的告警规则;或者,
所述目标节点为模型训练资源管理节点,若所述目标节点占用的资源数据量大于第一预设数据量,则确定所述目标节点的执行状态触发所述目标节点对应的告警规则;或者,
所述目标节点为模型训练数据节点,若所述目标节点可用的数据存储空间的数据量小于第二预设数据量,则确定所述目标节点的执行状态触发所述目标节点对应的告警规则。
5.一种监控模型训练的装置,其特征在于,所述装置包括:
收发模块,用于接收机器学习平台中的至少一个节点分别上报的监控信息,所述监控信息为所述至少一个节点通过执行一个或多个模型训练任务生成的;
处理模块,用于根据所述至少一个节点分别对应的监控信息,确定所述一个或多个模型训练任务的监控指标以及所述监控指标对应的信息;所述监控指标表征所述一个或多个模型训练任务的执行信息;
告警模块,用于若确定所述监控指标对应的信息触发所述监控指标对应的告警规则,则执行告警。
6.根据权利要求5所述的装置,其特征在于,所述监控指标包括以下任意一项或任意多项:
所述一个或多个模型训练任务的执行结果、执行所述一个或多个模型训练任务所消耗的计算资源、执行所述一个或多个模型训练任务的数据存储情况。
7.根据权利要求5所述的装置,其特征在于,所述处理模块还用于:
确定所述至少一个节点中处于运行状态的目标节点;
向所述目标节点发送状态请求消息,并接收所述目标节点根据所述状态请求消息发送的所述目标节点的执行状态;
所述告警模块还用于:若确定所述目标节点的执行状态触发所述目标节点对应的告警规则,则执行告警。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910458041.8/1.html,转载请声明来源钻瓜专利网。





