[发明专利]基于示教学习的决策树行为决策算法有效
申请号: | 201710687194.0 | 申请日: | 2017-08-11 |
公开(公告)号: | CN107479547B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 王祝萍;邢文治;张皓;陈启军 | 申请(专利权)人: | 同济大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京国坤专利代理事务所(普通合伙) 11491 | 代理人: | 黄耀钧 |
地址: | 201800 上海市嘉定区曹*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 教学 决策树 行为 决策 算法 | ||
1.一种基于示教学习的决策树行为决策算法,其特征在于,包括如下步骤:
(a)用行为的状态转移频率矩阵和状态转移概率矩阵来描述示教学习中的示教规律,存储示教轨迹的状态转移规律;
(b)根据步骤(a)求取状态转移频率矩阵和状态转移概率矩阵;
(c)根据状态转移频率构建奖励;
(d)状态转移概率矩阵输出即将进行的选择动作时,决策树根据步骤(b)对状态转移概率矩阵即将产生的动作进行评估,评估通过,则执行状态转移,评估不通过,则执行步骤(e);
(e)根据步骤(b)和(c)通过Actor-Critic算法更新状态转移频率矩阵与状态转移概率矩阵;
(f)重复步骤(d)和(e)至评估通过。
2.根据权利要求1所述的基于示教学习的决策树行为决策算法,其特征在于,步骤(a)的具体过程为:先将预测路面的长度进行栅格化;设计记录转换关系的状态转移表格;以矩阵的形式填入状态转移表格的频率,以此作为示教中由当前状态转移到后继状态的频次,状态转移概率是通过softmax函数计算当前状态的后继n个可能状态的访问频率得出。
3.根据权利要求1所述的基于示教学习的决策树行为决策算法,其特征在于,步骤(b)的具体过程为:状态转移频率是记录当前状态下即将被访问状态的次数,状态转移概率即计算这样的次数所得出的转移概率值;将示教学习的状态转移轨迹进行离散化抽样构建状态转移频率矩阵,状态转移概率是通过softmax函数计算当前状态的后继n个可能状态的访问频率得出。
4.根据权利要求1所述的基于示教学习的决策树行为决策算法,其特征在于,步骤(c)的具体过程为:将即将进行的状态动作与期望的状态动作进行比对;如果符合期望的则进行奖励加分,否则进行负奖励惩罚;若在当前状态的其它未选择动作中出现比所选动作更加接近期望动作的行为,则进行奖励加分;最终将离散的状态点进行拟合,得到规划曲线;其中,奖励的变化表达式设计为:
上式表明,在动作符合期望的时候,设置Δr=+1;反之,动作不符合期望的时候,设置Δr=-1,其中au是期望的动作,a是即将进行的动作;Δr表示执行动作au后的奖励值。
5.根据权利要求1所述的基于示教学习的决策树行为决策算法,其特征在于,步骤(d)的具体过程为:决策树通过两个方面来评判动作转移的合理性和安全性;都满足则评估通过,否则,评估不通过;
一是评判状态转移的合理性,以此确认车辆能够在自身物理条件限制的情况下实现转移;评价过程为si→sj,||i-j||=1;
上式中si代表第i个状态;该式表明,每次运动时,车辆都会在当前状态的邻近状态选择转移状态,其中si和sj分别代表执行某个动作前后的状态,||i-j||=1为状态的约束条件;i和j的取值范围均为自然数;
二是将轨迹点拟合后,进行膨胀,确认轨迹可行驶域内无其它障碍物:
其中是状态si相对于车辆的横纵坐标,xobstacle,yobstacle临近域的障碍物横纵坐标,xwidth,ylength分别是车辆宽度和长度的1/2。
6.根据权利要求1所述的基于示教学习的决策树行为决策算法,其特征在于,步骤(e)的具体过程为;其强化方式为:
δt=rt+γV(st+1)-V(st),p(st,at)=p(st,at)+βδt
其中V(st)是当前状态预测后的累积奖励,V(st+1)是从下一个状态预测后的累积奖励,β是更新程度,γ是当前预测之后的奖励可信程度,p(st,at)是在状态st执行动作at的概率,该式是在示教学习的转移频率得到的转移概率基础上进行更新;其中δt为从状态st到st+1的TD误差,rt为状态st到st+1的立即奖励。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710687194.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车安全部件看门狗电路
- 下一篇:一种AGV小车控制系统