[发明专利]一种可拓展多微波源协同输出的智能微波反应器系统有效
| 申请号: | 202110151601.2 | 申请日: | 2021-02-03 |
| 公开(公告)号: | CN112947174B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 杨彪;高皓;成宬;杜婉;刘承;马红涛 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G05B19/042 | 分类号: | G05B19/042 |
| 代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
| 地址: | 650093 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 拓展 微波 协同 输出 智能 反应器 系统 | ||
1.一种可拓展多微波源协同输出的智能微波反应器系统,其特征在于:包括用于实现基于强化学习的控制策略的PC模块(1)、用于给磁控管(13)供电的磁控管电源模块(7)、与各个磁控管电源连接用于直接精准调节磁控管功率的功率控制模块(5)、用于沟通功率控制模块(5)与PC模块(1)的通信模块(3)、以及用作参数反馈的采样模块(10);
实现Q学习的步骤如下:
Step1:基础配置;
Step2:各模块自检与初始数据的打包广播,馈入功率,进入加热过程;
Step3:收集采样数据与分发功率控制数据;
Step4:根据不同的CAN应用协议设置各源数据的过滤情况,组成不同额通信拓扑结构;
Step5:使用免模型的异策略Q-学习算法,计算各源需要的最佳馈入功率;
Step5.1设置算法参数;α∈[0,1],贪心参数ε∈[0,1],折扣因子γ∈[0,1];
Step5.2初始化值函数矩阵Q(S,A);
除最终状态Q外,Q(s,a)=0;
Step5.3开始一个回合,选取当前回合的起始状态S;
Step5.4从当前起始状态S的动作空间中使用ε-贪心法构造一个随机的行动策略;
Step5.5执行动作A,观察获得其对应的R和S′;其中S′为执行动作后的下一个状态,R为执行动作的即时奖励;
Step5.6使用Q(S,A)←Q(S,A)+α[R+γmaxaQ(S′,a)-Q(S,A)],更新Q函数;
Step5.7更新状态,S←S′;
Step5.8S是否已经达到最终状态,没有则转到Step5.4;否则此回合结束;
Step5.9开始下一回合,转到Step5.3;
Step6:完成一次加热,保存数据,本次最优策略作为下次加热初始策略;
所述PC模块(1)即为在电脑上设计的一个上位机控制软件,其中包含窗口化的人机交互控制界面以及后台用于运算控制策略的强化学习算法;
所述强化学习算法采用Q-学习算法,用如式(1)所示的离散化指标作为状态表征:
设系统中有m组微波源,离散地,将微波源的功率划分为k个功率档,则整个系统中将会有种行为,由状态和行为来构建奖励矩阵R,并在迭代运算过程中根据奖励矩阵更新Q值矩阵,最后由Q值矩阵推断出一个最优控制策略,并在每一次加热过程中不断学习并优化控制策略;
状态确定后就要确定使状态发生的动作;
设系统中有m组微波源,离散地将微波源的功率划分为k个功率档,则整个系统中将会有种行为;
根据状态和行为构建如式(2)所示的奖励矩阵Rxy为:
其中x为表示状态的编号,y为表示行为的编号,如r(x,y)就是在状态sx执行动作ay的即时奖励R;其中数值,需要按照目标要求进行设置与调整,具体方法为:若状态从si到sj,i<j,即状态向着更均匀方向转移,则奖励值为正,且i,j之间差值越大,奖励值越大;反之则奖励值为负,越小;然后在随机选择动作后,观察转移到的状态,即有了起始状态si和下一状态sj,由此得到r(x,y);如算法Step5.5中所述,在迭代过程中,就由如算法Step5.5来获取即时奖励带入Step5.6运算,用来更新Q(S,A);
将Step5.6中不停迭代更新的Q(S,A)构构建如式(3)所示的Q值矩阵Qxy为:
其中x为表示状态的编号,y为表示行为的编号,如Q(x,y)就是在状态sx执行动作ay的Q值;在进行多回合循环迭代后,最后得到一个Q值矩阵,用这个矩阵作为指导,每一步挑出一个使Q值最大的步骤,就能输出一个最优策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110151601.2/1.html,转载请声明来源钻瓜专利网。





