[发明专利]一种改进的Dyna-Q学习路径规划算法在审

专利信息
申请号: 202110278598.0 申请日: 2021-03-16
公开(公告)号: CN112964272A 公开(公告)日: 2021-06-15
发明(设计)人: 石振;王保华;王科银;张建辉 申请(专利权)人: 湖北汽车工业学院
主分类号: G01C21/34 分类号: G01C21/34
代理公司: 济南泉城专利商标事务所 37218 代理人: 张贵宾
地址: 442002 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 改进 dyna 学习 路径 规划 算法
【权利要求书】:

1.一种改进的Dyna-Q学习路径规划算法,其特征在于:包括以下步骤:

S1.输入环境信息:起始位置和目标位置;

S2.设置参数ɑ、γ、ε、ζ,初始化模型M(s,a);

S3.初始化Q表;

S4.循环;

S5.初始化状态S;

S6.采用ε-贪婪策略选择动作A;

S7.执行所选动作到达下一状态S’并获得相应奖励R;

S8.更新Q值;

S9.用R和S’更新模型M(s,a);

S10.n次模拟;

S11.每次模拟都随机选择一个之前出现过的状态S以及该状态下的动作A;

S12.基于模型M(S,A)得到奖励R和下一状态S’;

S 13.再次更新Q值;

S14.达到一定步数或一定收敛条件,终止;

其中,S代表环境状态;A代表智能体所采取的动作;R代表智能体在状态S采取动作A所获得的奖励。

2.根据权利要求1所述的改进的Dyna-Q学习路径规划算法,其特征在于:步骤S1具体过程如下:对移动机器人获得的环境图像进行分割处理,将图像分割成20×20的栅格,采用栅格法建立环境模型,如果在格栅中发现障碍物,则定义该栅格为障碍物位置,机器人不能经过;如果格栅中发现目标点,则定于该格栅为目标位置,为移动机器人最终要到达的位置;其他的栅格定义为无障碍物的栅格,机器人可以经过。

3.根据权利要求1所述的引入人工势场的强化学习路径规划方法,其特征在于:步骤S2中,α为学习率,用于迭代收敛,γ为折扣因子,决定了同一迭代周期内未来奖励的重要程度;ε是介于0-1之间的贪婪度,每次智能体以ε的概率对环境进行探索,以1-ε的概率选择具有最大状态动作值的动作;ζ是大于0的尺度因子。

4.根据权利要求1所述的引入人工势场的强化学习路径规划方法,其特征在于:步骤S3中通过状态价值函数和状态值函数之间的关系公式(1)来初始化Q值

(1)

其中,P(s|sa)为从当前状态s和动作a确定的情况下转移到状态s的概率;

采用公式2改进的引力场函数对除目标位置以外的状态值进行初始化,

(2)

其中,ζ是大于0的尺度因子,为当前位置与目标位置的距离。

5.根据权利要求1所述的引入人工势场的强化学习路径规划方法,其特征在于:

步骤S8和步骤S13中, 采用公式3初始化Q值

(3)

其中,为t时刻的状态动作值,为t时刻获得的奖励值,为t+1时刻采取动作a状态动作值。

6.根据权利要求3所述的引入人工势场的强化学习路径规划方法,其特征在于:学习率ɑ为0.01、折扣因子γ为0.9、贪婪因子ε为0.2。

7.根据权利要求1所述的引入人工势场的强化学习路径规划方法,其特征在于:步骤S14中最大运行幕数设置为100。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北汽车工业学院,未经湖北汽车工业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110278598.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top