[发明专利]一种改进的Dyna-Q学习路径规划算法在审

申请号：	202110278598.0	申请日：	2021-03-16
公开（公告）号：	CN112964272A	公开（公告）日：	2021-06-15
发明（设计）人：	石振;王保华;王科银;张建辉	申请（专利权）人：	湖北汽车工业学院
主分类号：	G01C21/34	分类号：	G01C21/34
代理公司：	济南泉城专利商标事务所 37218	代理人：	张贵宾
地址：	442002 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种改进 dyna 学习路径规划算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种改进的Dyna-Q学习路径规划算法，其特征在于：包括以下步骤：

S1.输入环境信息：起始位置和目标位置；

S2.设置参数ɑ、γ、ε、ζ，初始化模型M(s，a)；

S3.初始化Q表；

S4.循环；

S5.初始化状态S；

S6.采用ε-贪婪策略选择动作A；

S7.执行所选动作到达下一状态S’并获得相应奖励R；

S8.更新Q值；

S9.用R和S’更新模型M(s，a)；

S10.n次模拟；

S11.每次模拟都随机选择一个之前出现过的状态S以及该状态下的动作A；

S12.基于模型M(S，A)得到奖励R和下一状态S’；

S 13.再次更新Q值；

S14.达到一定步数或一定收敛条件，终止；

其中，S代表环境状态；A代表智能体所采取的动作；R代表智能体在状态S采取动作A所获得的奖励。

2.根据权利要求1所述的改进的Dyna-Q学习路径规划算法，其特征在于：步骤S1具体过程如下：对移动机器人获得的环境图像进行分割处理，将图像分割成20×20的栅格，采用栅格法建立环境模型，如果在格栅中发现障碍物，则定义该栅格为障碍物位置，机器人不能经过；如果格栅中发现目标点，则定于该格栅为目标位置，为移动机器人最终要到达的位置；其他的栅格定义为无障碍物的栅格，机器人可以经过。

3.根据权利要求1所述的引入人工势场的强化学习路径规划方法，其特征在于：步骤S2中，α为学习率，用于迭代收敛，γ为折扣因子，决定了同一迭代周期内未来奖励的重要程度；ε是介于0-1之间的贪婪度，每次智能体以ε的概率对环境进行探索，以1-ε的概率选择具有最大状态动作值的动作；ζ是大于0的尺度因子。

4.根据权利要求1所述的引入人工势场的强化学习路径规划方法，其特征在于：步骤S3中通过状态价值函数和状态值函数之间的关系公式（1）来初始化Q值

（1）

其中，P（s^，|s^，a）为从当前状态s和动作a确定的情况下转移到状态s^，的概率；

采用公式2改进的引力场函数对除目标位置以外的状态值进行初始化，

（2）

其中，ζ是大于0的尺度因子，为当前位置与目标位置的距离。

5.根据权利要求1所述的引入人工势场的强化学习路径规划方法，其特征在于：

步骤S8和步骤S13中，采用公式3初始化Q值

（3）

其中，为t时刻的状态动作值，为t时刻获得的奖励值，为t+1时刻采取动作a状态动作值。

6.根据权利要求3所述的引入人工势场的强化学习路径规划方法，其特征在于：学习率ɑ为0.01、折扣因子γ为0.9、贪婪因子ε为0.2。