[发明专利]一种基于强化学习的绞吸式挖泥船智能控制系统及方法有效
申请号: | 202210137133.8 | 申请日: | 2022-02-15 |
公开(公告)号: | CN114411858B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 鲁嘉俊;王柳艳;沈彦超;王伟;徐婷;戴文伯;杨波;许墅 | 申请(专利权)人: | 中交疏浚技术装备国家工程研究中心有限公司 |
主分类号: | E02F5/28 | 分类号: | E02F5/28;E02F3/88;G06F30/17;G06F30/27;G06F18/10;G06N3/0499;G06N3/048;G06N3/092;G06N20/00 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200092 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 绞吸式 挖泥船 智能 控制系统 方法 | ||
1.一种基于强化学习的绞吸式挖泥船智能控制方法,其特征在于,包括以下步骤:
S1.利用传感器收集绞吸船施工过程数据,构成疏浚作业过程的原始数据库;
S2.针对原始数据进行数据预处理,筛选出横移周期内的有效数据,并采用卡尔曼滤波方法对数据进行滤波;
S3.采用信息增益率的方法挑选出和产量密切相关并可人工调控的控制参数;
信息增益是指添加了信息之后能增加多少收益,也即增加信息之后能减少多少不确定性;分裂信息量为节点上样本的信息熵,其考虑属性进行分裂时分支的数量和尺寸信息;信息增益率是信息增益与分裂信息量的比值,使各属性的重要性随着分裂信息量的增大而减小;信息增益率方法经常被用来判断变量的重要性,利用信息增益率筛选的参数为横移速度、泥泵转速、绞刀转速、步进距离和桥架深度,其分别对应了绞吸船的横移子控制系统、泥泵子控制系统、绞刀子控制系统、进关子控制系统和桥架子控制系统;
S4.筛选出控制变量后,定义强化学习动作区间为[横移速度,泥泵转速,绞刀转速,桥架深度,步进距离],即定义了强化学习中智能体可以控制的变量;
S5.强化学习动作区间为连续动作空间,并满足完备性、高效性、合法性要求;
其中,完备性指的是功能的完备性和时效完备性;
高效性指的是动作空间简单高效,可以有效降低训练难度并提升算法性能;
合法性指的是设置在特定状态下不允许出现的动作;
S6.将强化学习的动作区间作为输入变量,利用ELM神经网络搭建绞吸挖泥船的产量预测模型;
ELM神网的输入层向量和输出层向量分别为:
X={横移速度、泥泵转速、绞刀转速、桥架深度、步进距离};
Y={瞬时产量};
设置隐含层的神经元默认节点个数为30;设置激活函数S(x)表达式如下:
ELM的优点在于计算迅速,且参数的随机初始化使得ELM具有较好的泛化性;
S7.奖励函数是强化学习的核心,强化学习智能体的学习目标就是最大化期望累计奖励;设计奖励函数表达式如下:
R=O-Dc*D-Pf
其中R表示智能体执行动作所获得的奖励值,即对当前动作好坏的评价;
O代表ELM神网模型预测的绞吸船瞬时产量,瞬时产量越高意味着系统得到的奖励值也越高;
D为该时刻的控制参数与上一时刻控制参数的欧氏距离偏差,加入此变量是为了限制两次输入信号之间的变化幅度,防止控制参数剧烈跳变;
Dc为D的乘数项系数,可根据实际工程工况做调整,默认值为100;
Pf定义为惩罚函数,默认值为400,如果系统控制变量超限,则立即给予智能体惩罚值;添加控制变量超限的惩罚函数,能够使得强化学习推荐的最佳施工参数位于安全区间内;
S8.强化学习智能体的最终奖赏是在多次动作之后才能观察到,针对当前的每次动作选择,分为探索和利用,探索为将尝试机会均匀分到每个可以执行的动作中去,利用为只采取已知经验中得到的平均奖赏最大的动作;动作概率的分配基于Boltzmann分布,方程式如下:
式中R(i)为当前动作完成后的平均奖赏;在程序中自定义τ值大小,设定τ越小则平均奖赏高的动作被选取的概率越高,τ趋近于0时趋于仅利用,τ趋于无穷大时趋于仅探索;程序默认τ值通常取0.05至0.10之间;
S9.根据当前状态St,强化学习智能体执行当前动作At作用到环境,执行不同动作的概率为上一步骤计算得到的P(k);然后环境反馈对应状态值St,并将其与奖励值Rt反馈智能体,与此同时环境转移到下一个状态St+1,并给予奖励值Rt+1;由此得到强化学习的行动状态序列:
τ={S1,A1,S2,A2,S3,A3,…,Sn,An}
式中S1,S2,S3,…,Sn为智能体的状态序列,A1,A2,A3,…,An为智能体的动作序列;
S10.强化学习的环境模型包括动作空间、状态转移和奖惩函数3个部分;经上述步骤搭建环境模型后,强化学习智能体根据上一步给出的随机动作Ai-1执行指令并反馈状态信息Si-1,通过与强化学习环境的交互学习中逐渐获得最优策略πi;随着学习的进行,好的动作被选取的概率逐渐增大,不好的动作慢慢淘汰,因此机器获得的奖励值Ri逐渐上升,代表着智能体在自学习过程中逐渐获得最佳施工参数;
S11.设置机器学习最高学习次数;如果累计奖励值上升并逐渐趋于稳定,即满足学习终止条件;若不满足,返回到步骤S6继续循环;如果到达最高学习次数,结束强化学习算法,调整参数后重新开始学习;满足学习终止条件后,获得的动作AF,包含横移速度、泥泵转速、绞刀转速、桥架深度和步进距离,即为机器学习找到的最优疏浚参数;
S12.在横移控制系统、泥泵控制系统、绞刀控制系统、桥架控制系统、进关控制系统这五个控制系统设置挖泥船子系统中的各个控制参数,并通过PLC控制机械设备,使得绞吸挖泥船能够依据强化学习获得的最优疏浚参数进行智能挖泥操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中交疏浚技术装备国家工程研究中心有限公司,未经中交疏浚技术装备国家工程研究中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210137133.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种安装于粮库的巡检刮平机器人
- 下一篇:一种特种陶瓷材料及其制备方法