[发明专利]双loss价值网络深度强化学习KVFD模型力学参数全局优化方法及系统有效
申请号: | 202110368257.2 | 申请日: | 2021-04-06 |
公开(公告)号: | CN113077853B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 张红梅;周衍;王凯;李文彬;张可浩;王炯;万明习 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G16C60/00 | 分类号: | G16C60/00;G06F30/27;G06N3/045;G06N3/0442;G06N3/0464;G06N3/092;G06F111/14;G06F119/14 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 范巍 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | loss 价值 网络 深度 强化 学习 kvfd 模型 力学 参数 全局 优化 方法 系统 | ||
1.一种双loss价值网络深度强化学习KVFD模型力学参数全局优化方法,其特征在于,包括以下步骤:
S1,将预获取的纳米压痕测量曲线输入训练好的预测值获取网络,获得所述纳米压痕测量曲线的参数预测值;其中,训练好的预测值获取网络是基于LSTM隐层的循环神经网络,所述循环神经网络在训练时使用的LOSS函数值由输入网络的曲线与曲线对应参数和网络输出的参数与参数对应曲线共同计算;
S2,将所述参数预测值作为深度强化学习算法的迭代初值进行迭代,获得预获取的纳米压痕测量曲线的全局参数解的逼近;其中,所述深度强化学习算法的奖励值预测网络通过当前迭代参数对应曲线与真实曲线的差值,给出当前参数向不同方向变化时的奖励值,指导参数向全局参数逼近;
所述全局参数解的逼近达到预设收敛条件时,将所述全局参数解的逼近作为KVFD模型的力学参数进行输出;
其中,步骤S1中,所述预获取的纳米压痕测量曲线包括时间序列、受力序列和压痕深度序列;
步骤S2中,所述将步骤S1获得的参数预测值作为深度强化学习算法的迭代初值进行迭代,获得预获取的纳米压痕测量曲线的全局参数解的逼近的过程中,每一次迭代的具体步骤包括:
(1)使用奖励评价规则和所述奖励值预测网络分别对当前迭代参数的备选参数集进行奖励值预测,将二者加权相加后作为对当前迭代参数的备选参数集的奖励评价;
所述奖励评价规则为,对于某个备选参数的评价,先计算备选参数对应曲线与预获取的纳米压痕测量曲线的曲线差值Δ,之后计算曲线差值的绝对平均值
奖励值r的评价公式表示为:
(2)根据步骤(1)获得的奖励评价与深度强化学习算法中的Q表当前行的内容,计算Q表的新一行,找到Q表新一行中最大值,将其对应的备选参数作为当次迭代结果参数。
2.根据权利要求1所述的KVFD模型力学参数全局优化方法,其特征在于,步骤S1中,所述预测值获取网络包括:多个LSTM隐藏层和一个DNN网络;
其中,所述多个LSTM隐藏层的每一层的单元数都固定一致,每个LSTM隐藏层之间采用点对点方式连接;第一个LSTM隐藏层输入预获取的纳米压痕测量曲线,最后一个LSTM隐藏层输出值进入DNN网络;
所述DNN网络包括多个维数不同的全连接层和卷积层,用于将最后一个LSTM隐藏层输出的值转变为参数预测值输出。
3.根据权利要求1所述的KVFD模型力学参数全局优化方法,其特征在于,步骤S1中,LOSS函数值的计算表达式为,
式中,Lp部分计算标签参数θtrain与网络输出参数之间的loss值,Ld部分计算曲线Dtrain与网络输出参数对应的曲线之间的loss值,wp、wd分别为Lp、Ld两部分的权重。
4.根据权利要求1所述的KVFD模型力学参数全局优化方法,其特征在于,步骤S2中,所述深度强化学习算法的奖励值预测网络包括:多个LSTM隐藏层和一个DNN网络;
其中,所述多个LSTM隐藏层的每一层的单元数都固定一致,每个LSTM隐藏层之间采用点对点方式连接;第一个LSTM隐藏层输入当前迭代曲线减去预获取的纳米压痕测量曲线所得的差值,最后一个LSTM隐藏层输出值进入DNN网络;
所述DNN网络包括多个维数不同的全连接层和卷积层,用于将最后一个LSTM隐藏层输出的值转变为对各个方向动作的奖励预测。
5.根据权利要求4所述的KVFD模型力学参数全局优化方法,其特征在于,步骤S2中,所述奖励值预测网络训练时采用的LOSS函数为标签奖励值向量与网络输出的奖励值向量的绝对误差和。
6.根据权利要求1所述的KVFD模型力学参数全局优化方法,其特征在于,步骤S2中,判断所述全局参数解的逼近是否达到预设收敛条件的具体步骤包括:在当前迭代结果参数对应曲线与预获取的纳米压痕测量曲线的误差小于某一预设数值时停止迭代;或者,迭代次数达到预设值时停止迭代。
7.一种双loss价值网络深度强化学习KVFD模型力学参数全局优化系统,其特征在于,包括:
参数预测值获取模块,用于将预获取的纳米压痕测量曲线输入训练好的预测值获取网络,获得所述纳米压痕测量曲线的参数预测值;其中,训练好的预测值获取网络是基于LSTM隐层的循环神经网络,所述循环神经网络在训练时使用的LOSS函数值由输入网络的曲线与曲线对应参数和网络输出的参数与参数对应曲线共同计算;
深度强化学习迭代输出模块,用于将获得的参数预测值作为深度强化学习算法的迭代初值进行迭代,获得预获取的纳米压痕测量曲线的全局参数解的逼近;其中,所述深度强化学习算法的奖励值预测网络通过当前迭代参数对应曲线与真实曲线的差值,给出当前参数向不同方向变化时的奖励值,指导参数向全局参数逼近;所述全局参数解的逼近达到预设收敛条件时,将所述全局参数解的逼近作为KVFD模型的力学参数进行输出;
步骤参数预测值获取模块中,所述预获取的纳米压痕测量曲线包括时间序列、受力序列和压痕深度序列;
步骤深度强化学习迭代输出模块中,所述将获得的参数预测值作为深度强化学习算法的迭代初值进行迭代,获得预获取的纳米压痕测量曲线的全局参数解的逼近的过程中,每一次迭代的具体步骤包括:
(1)使用奖励评价规则和所述奖励值预测网络分别对当前迭代参数的备选参数集进行奖励值预测,将二者加权相加后作为对当前迭代参数的备选参数集的奖励评价;
所述奖励评价规则为,对于某个备选参数的评价,先计算备选参数对应曲线与预获取的纳米压痕测量曲线的曲线差值Δ,之后计算曲线差值的绝对平均值
奖励值r的评价公式表示为:
(2)根据步骤(1)获得的奖励评价与深度强化学习算法中的Q表当前行的内容,计算Q表的新一行,找到Q表新一行中最大值,将其对应的备选参数作为当次迭代结果参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110368257.2/1.html,转载请声明来源钻瓜专利网。