[发明专利]基于策略梯度在线学习算法的巡航控制系统及设计方法有效
申请号: | 201910952171.7 | 申请日: | 2019-10-30 |
公开(公告)号: | CN110615003B | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 高炳钊;张羽翔;郭露露;陈虹 | 申请(专利权)人: | 吉林大学 |
主分类号: | B60W50/00 | 分类号: | B60W50/00 |
代理公司: | 长春吉大专利代理有限责任公司 22201 | 代理人: | 崔斌 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 策略 梯度 在线 学习 算法 巡航 控制系统 设计 方法 | ||
1.一种基于策略梯度在线学习算法的巡航控制系统的设计方法,巡航控制系统包括智能感知信号处理模块(A)、模式切换模块(B)、学习模块(C)和车辆执行控制模块(D);所述智能感知信号处理模块(A),用于获得当前车辆和前方车辆行驶状态信息并进行信号处理;所述模式切换模块(B),用于对学习系统中不同模式进行切换,基于规则方法设计模式切换策略;所述学习模块(C),用于学习跟车策略并根据环境进行在线更新;所述车辆执行控制模块(D),用于对实际控制量进行跟踪控制,采用双层前馈加反馈PID控制器实现;所述智能感知信号处理模块(A)与模式切换模块(B)、学习跟车模块(C)以及执行控制模块D相连;所述模式切换模块(B)与学习跟车模块(C)相连;所述学习跟车模块(C)与执行控制模块(D)相连;其特征在于,该方法包括以下步骤:
步骤一、通过智能感知信号处理模块(A)获得车辆控制算法所需的状态信息,包括:借助车载智能感知模块中的车载摄像头、雷达环境感知元件确认前方待跟随车辆,并得到当前车辆和前方车辆行驶状态信息;并且根据前车车速通过计算得到加速状态;
步骤二、通过模式切换模块(B)切换学习系统中的不同模式,基于规则方法设计模式切换策略,用于切换上层控制器中的不同控制模式,其中这些控制模式有:启停模式,非跟车模式,跟车学习模式,测试模式,恢复模式;
步骤三、通过学习跟车模块(C)针对不同的模式使用不同控制方法,构建一个可连续学习的在线跟车学习模块,其中最重要的是跟车学习模式,在此模式中使用基于强化学习中的策略梯度方法在线学习跟车行为;测试模式应用强化学习学到的策略验证学习效果;非跟车模式应用于无前车的情况,直接使用强化学习方法对本车进行速度控制;以上三种模式均建立在强化学习系统框架下;启停模式与恢复模式使用比例-积分-微分PID控制器进行控制;
步骤四、通过车辆执行控制模块(D)采用双层前馈加反馈比例-积分-微分PID控制器实现对于决策量的跟踪执行,保证跟踪控制精度。
2.根据权利要求1所述一种基于策略梯度在线学习算法的巡航控制系统的设计方法,其特征在于,所述步骤一的具体方法如下:
在智能感知信号处理模块(A)中,通过车身总线可读取车载摄像头与雷达自身算法识别出的目标物序号,位置,速度信息,以及本车的运动状态;
同时,根据前车车速使用二次均值滤波得到前车的加速状态,作为后续控制算法的状态输入。
3.根据权利要求1所述一种基于策略梯度在线学习算法的巡航控制系统的设计方法,其特征在于,所述步骤二的具体方法如下:
模式切换模块(B)针对的模式有启停模式,非跟车模式,跟车学习模式,测试模式,恢复模式;在上层控制器中不同模式的切换中,使用基于规则方法设计模式切换策略,其中用于切换的具体条件如下:
C1:是否满足算法控制车辆车速条件;车速降低至低于15km/h则不满足本算法控制条件即C1=0,直到车速增加至超过20km/h重新满足本算法控制条件即C1=1;
C2:前方是否有待跟随车辆,若有待跟随车辆C2=0,若无待跟随车辆C2=1;
C3:是否满足自适应巡航条件;即前车车速与当前车辆设定车速关系,若前车车速高于本车设定车速则不满足跟车条件即C3=0,否则C3=1;
C4:是否满足学习条件;即当前车辆与前车的距离及速度关系是否适合进行跟车学习,不满足跟车学习即C4=0的条件有:车头时距小于1或前车距离高于最远跟车距离,否则C4=1;
C5:当前车辆设定状态;分为两种,学习状态即C5=1及测试状态即C5=0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910952171.7/1.html,转载请声明来源钻瓜专利网。