[发明专利]基于近似策略迭代的自适应巡航控制方法有效
| 申请号: | 201310328571.3 | 申请日: | 2013-07-31 |
| 公开(公告)号: | CN103381826A | 公开(公告)日: | 2013-11-06 |
| 发明(设计)人: | 徐昕;王健;孙振平;安向京;郭琦 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
| 主分类号: | B60W30/14 | 分类号: | B60W30/14;G06F19/00 |
| 代理公司: | 湖南兆弘专利事务所 43008 | 代理人: | 周长清 |
| 地址: | 410073 湖南省长沙市砚瓦池正街47号中国*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 近似 策略 自适应 巡航 控制 方法 | ||
技术领域
本发明主要涉及到对汽车油门和刹车的智能控制方法领域,特指一种基于近似策略迭代的自适应巡航控制方法,使车辆运动速度高精度的逼近期望速度,尤其适用于汽车的自适应巡航控制。
背景技术
目前,已有的可用于汽车速度控制的方法包括基于动力学模型的PID控制、滑模控制、模糊逻辑以及模糊-神经网络控制方法等等。
其中,基于动力学模型的PID控制和滑模控制都需要车的纵向动力学模型,并且模型越精确,控制器的控制效果就越好。但是由于纵向动力学的复杂性和强非线性,很难得到一个完整、精确的模型,再加上要满足巡航控制中实时性的要求,于是用在控制器中的纵向动力学模型一般都被线性化或者被简化,通常以解析的形式或者图表的形式表述出来。因此,控制的效果就会受到模型精度的影响。虽然对整个纵向动力学模型进行了非参数建模,并且得到了一个较为准确的模型,但是该模型对于自动档的车无法反映出车自动换挡时对车速的影响,并且如果行驶环境发生变化时,模型的精度也会不准确。
PID是一种经典的控制方法,该方法的控制性能取决于比例、微分和积分参数,具有易于实现、鲁棒性强的特点,但是在控制如自主车一样的非线性系统时,固定参数的PID很难确定最优的系数,因而无法获得令人满意的控制效果。因此,可以通过在不同的条件下使用不同的系数来达到期望的控制性能。最简单的方法就是人工划分几个区间,在每个区间上制定一组系数,但是这些区间要根据不同的问题进行不同的划分,对于复杂的问题来说比较麻烦。另一种方法就是通过引入模糊逻辑,通过引入模糊逻辑可以利用if-then规则去模仿人控制车速的经验来控制车辆的纵向速度,因此控制效果的好坏直接取决于规则的制定,为了得到较好的控制效果就需要使用较多的模糊规则和自由参数。为了解决这个问题,引入了神经网络,只需少量的模糊规则,便可将所需的if-then规则通过神经网络的学习能力用神经网络的结构表示出来,并有效的调整模糊系统的隶属函数、规则库和输出参数,但是确定神经网络的隐层数和每个隐层的节点数没有一个固定统一的方法,主要还是依靠经验。
近年来,在仿真和实物领域,增强学习被越来越多的应用到机器人的控制中。增强学习完全基于模型参数未知的马尔科夫理论框架,并且被认为是解决复杂多步决策问题的一种有效的方法,它主要用于在模型信息较少时的马尔科夫决策过程。因此,增强学习非常适于解决在不确定条件下的序贯优化和控制问题,这非常适合应用在实际问题中。
然而,由于增强学习的试错机制,利用增强学习直接控制油门、刹车是不安全的。对于一个连续状态、动作空间的问题,学习算法有可能在没有遍历完整个状态、动作空间前就收敛了,因此当遇到一个新的状态时,算法有可能作出错误的选择。例如,对于巡航控制来说,算法有可能在车需要刹车减速的时候选择一个较大的油门,因此必须对车的控制量施加一个约束。
PID控制器就是一种约束,它限制的控制量搜索的方向和速度。之所以选择PID控制器,是因为在已有的巡航控制器中,PID的参数最少。虽然固定参数的PID无法获得满意的控制效果,但是它在保持某一固定速度时具有非常好的性能。因此,只要能自动的根据不同的条件在线调整PID的参数,PID控制器的性能就能得到改善,从而达到满意的效果。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种原理简单、能够实现在线优化、提高控制性能的基于近似策略迭代的自适应巡航控制方法。
为解决上述技术问题,本发明采用以下技术方案:
一种基于近似策略迭代的自适应巡航控制方法,其步骤为:
(1)采集样本;
(2)使用近似策略迭代算法在样本上学习,得到一个近似最优策略;
(3)在巡航控制中在线优化PI控制器参数,即采用上述近似最优策略以数据驱动的方式去在线的优化PI控制器的参数,使巡航控制达到期望的性能。
作为本发明的进一步改进:所述步骤(1)的具体流程为:
(1.1)输入:Nstep,该采样周期中最大的采样步数;ε,随机的动作选择策略被执行的概率;π,基于主动学习的动作选择策略;
(1.2)初始化:D={},样本集合;s,初始状态;nstep=0,当前的样本采集步数;
(1.3)样本采集:
ε0,在区间[0,1]上均匀随机地抽取的随机数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310328571.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:移动式高压测试设备
- 下一篇:高精度重卡倒车控制系统





