[发明专利]一种改进的Dyna-Q学习路径规划算法在审
申请号: | 202110278598.0 | 申请日: | 2021-03-16 |
公开(公告)号: | CN112964272A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 石振;王保华;王科银;张建辉 | 申请(专利权)人: | 湖北汽车工业学院 |
主分类号: | G01C21/34 | 分类号: | G01C21/34 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 张贵宾 |
地址: | 442002 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 dyna 学习 路径 规划 算法 | ||
1.一种改进的Dyna-Q学习路径规划算法,其特征在于:包括以下步骤:
S1.输入环境信息:起始位置和目标位置;
S2.设置参数ɑ、γ、ε、ζ,初始化模型M(s,a);
S3.初始化Q表;
S4.循环;
S5.初始化状态S;
S6.采用ε-贪婪策略选择动作A;
S7.执行所选动作到达下一状态S’并获得相应奖励R;
S8.更新Q值;
S9.用R和S’更新模型M(s,a);
S10.n次模拟;
S11.每次模拟都随机选择一个之前出现过的状态S以及该状态下的动作A;
S12.基于模型M(S,A)得到奖励R和下一状态S’;
S 13.再次更新Q值;
S14.达到一定步数或一定收敛条件,终止;
其中,S代表环境状态;A代表智能体所采取的动作;R代表智能体在状态S采取动作A所获得的奖励。
2.根据权利要求1所述的改进的Dyna-Q学习路径规划算法,其特征在于:步骤S1具体过程如下:对移动机器人获得的环境图像进行分割处理,将图像分割成20×20的栅格,采用栅格法建立环境模型,如果在格栅中发现障碍物,则定义该栅格为障碍物位置,机器人不能经过;如果格栅中发现目标点,则定于该格栅为目标位置,为移动机器人最终要到达的位置;其他的栅格定义为无障碍物的栅格,机器人可以经过。
3.根据权利要求1所述的引入人工势场的强化学习路径规划方法,其特征在于:步骤S2中,α为学习率,用于迭代收敛,γ为折扣因子,决定了同一迭代周期内未来奖励的重要程度;ε是介于0-1之间的贪婪度,每次智能体以ε的概率对环境进行探索,以1-ε的概率选择具有最大状态动作值的动作;ζ是大于0的尺度因子。
4.根据权利要求1所述的引入人工势场的强化学习路径规划方法,其特征在于:步骤S3中通过状态价值函数和状态值函数之间的关系公式(1)来初始化Q值
(1)
其中,P(s,|s,a)为从当前状态s和动作a确定的情况下转移到状态s,的概率;
采用公式2改进的引力场函数对除目标位置以外的状态值进行初始化,
(2)
其中,ζ是大于0的尺度因子,为当前位置与目标位置的距离。
5.根据权利要求1所述的引入人工势场的强化学习路径规划方法,其特征在于:
步骤S8和步骤S13中, 采用公式3初始化Q值
(3)
其中,为t时刻的状态动作值,为t时刻获得的奖励值,为t+1时刻采取动作a状态动作值。
6.根据权利要求3所述的引入人工势场的强化学习路径规划方法,其特征在于:学习率ɑ为0.01、折扣因子γ为0.9、贪婪因子ε为0.2。
7.根据权利要求1所述的引入人工势场的强化学习路径规划方法,其特征在于:步骤S14中最大运行幕数设置为100。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北汽车工业学院,未经湖北汽车工业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110278598.0/1.html,转载请声明来源钻瓜专利网。