[发明专利]一种基于Actor-Critic强化学习模型的焊接异常实时诊断方法有效
| 申请号: | 202211692538.4 | 申请日: | 2022-12-28 |
| 公开(公告)号: | CN115673596B | 公开(公告)日: | 2023-03-17 |
| 发明(设计)人: | 姚志豪;李波 | 申请(专利权)人: | 苏芯物联技术(南京)有限公司 |
| 主分类号: | B23K31/12 | 分类号: | B23K31/12;G06F18/24;G06N3/048;G06N3/092 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 210042 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 actor critic 强化 学习 模型 焊接 异常 实时 诊断 方法 | ||
1.一种基于Actor-Critic强化学习模型的焊接异常实时诊断方法,其特征在于,包括以下步骤:
步骤S1、采集焊接过程中的多维传感数据,并进行预处理;对采集到的传感数据按照实际焊接情况进行标注,并构造特征,最终划分训练集和测试集,构建入模数据集;
步骤S2、搭建基于DQN网络结构的Actor-Critic强化学习模型,具体方法包括:
步骤S2.1、创建强化学习环境;
所述强化学习环境包括状态和执行的动作action;其中状态代表所有训练集样本数据,动作则代表对当前输入的样本数据进行标签预测;强化学习环境基于智能体产生的动作action,利用step函数产生下一时刻状态和下一时刻回报,然后再反馈至智能体,进入下一轮循环;
其中,强化学习环境对于智能体执行动作获得的回报reward规则如下:当标签预测结果与真实标签相符时,reward=1分,不符则reward=-1分;对于初始化及重置动作,则reward=0分;
步骤S2.2、基于DQN网络设置智能体结构;
DQN网络结构包括1层输入层、不少于2层线性层和1层线性输出层,激活函数采用Relu激活函数;智能体的输入包括当前初始化状态st,以及初始化回报rt,强化学习环境通过动作action产生下一时刻状态st+1和回报rt+1,当前初始化状态代表环境自身随机产生的训练集样本数据,初始化回报代表环境初始化的回报,即为0,回报rt+1代表智能体进行预测后获取的回报分数,下一刻状态代表下一刻输入的训练集样本数据;在当前状态下,选择不同动作,智能体会返回不同Q值,选择最大的Q值对应的动作,即为智能体采取的动作,将该动作下预测的标签与真实标签对比,计算其回报分数;
采用Actor-Critic强化学习模型作为智能体结构,其中Actor模型和Critic模型采用相同结构的DQN网络模型,在Actor输出层添加处理逻辑,使Actor模型输出为Q值最大时对应的动作;
步骤S3、基于训练集数据,采用TD算法对步骤S2所述Actor-Critic强化学习模型进行训练,输入特征数据,识别特征数据所属焊接标注情况;
步骤S4、基于训练好的Actor-Critic强化学习模型,基于测试集特征数据进行测试;通过输入的时序数据特征,实时识别所属焊接情况;最终部署测试完毕的Actor-Critic强化学习模型,实时接收传感器采集的数据,并识别当前焊接状态。
2.根据权利要求1所述的一种基于Actor-Critic强化学习模型的焊接异常实时诊断方法,其特征在于,所述步骤S1中对多维传感数据进行预处理步骤包括:
步骤S1.1、通过部署在焊机终端的各类传感器实时采集焊接过程中的高频时序数据,所述高频时序数据包括电流、电压、送丝速度和保护气流速;
步骤S1.2、对采集到的高频时序数据根据实际焊接情况进行标注,将正常焊接标注为0,对不同焊接异常问题分别标注不同代号;
步骤S1.3、针对采集的高频时序数据进行特征构造;构造特征包括时域特征、频域特征和时频域特征;
步骤S1.4、基于步骤S1.3中提取的特征及对应的标签构建入模数据集,包括训练集和测试集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏芯物联技术(南京)有限公司,未经苏芯物联技术(南京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211692538.4/1.html,转载请声明来源钻瓜专利网。





