[发明专利]用于将连续系统转换成马尔可夫决策过程的方法无效
| 申请号: | 201010603151.8 | 申请日: | 2010-12-23 |
| 公开(公告)号: | CN102109820A | 公开(公告)日: | 2011-06-29 |
| 发明(设计)人: | 丹尼尔·N·尼科夫斯基 | 申请(专利权)人: | 三菱电机株式会社 |
| 主分类号: | G05B13/02 | 分类号: | G05B13/02 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 黄纶伟;王凯 |
| 地址: | 日本*** | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 连续 系统 转换 成马尔可夫 决策 过程 方法 | ||
技术领域
本发明涉及动态系统的最优顺序控制,更具体地涉及将具有连续状态空间的非线性动态系统转换成具有离散状态空间的马尔可夫决策过程(MDP)。
背景技术
通常通过指定在控制动作的影响下的系统状态的时间依赖性和展开的一组方程式来描述动态系统的工作。在任意给定时间,动态系统具有由实数矢量给定的状态,可以在合适的状态空间中表示该实数矢量。动态系统状态中的小变化对应于实数的小变化。连续的动态系统通常根据一组微分方程式工作。
本发明涉及在具有通过一组离散控制动作控制的任意转移函数的连续状态空间中的任意非线性动态系统的自动控制和自动调用。
示例性的动态系统包括机器人、车辆、加热及暖通空调(HVAC)系统、发电机和家用电器。通常地,这些系统由发动机来操作,发动机具有例如导通和断开的相对较少量的离散设置,或者可以合理地限制可能的设置个数,如仅在整数温度设置恒温器。
这样的系统的状态通常是动态系统的连续状态空间X中的实值矢量x。集合A的控制动作a是离散的。可以用下面的一组方程式描述控制系统的动态:
xk+1=f(xk,ak),
其中,xk是在时刻tk的系统状态,ak是在时刻tk应用的控制动作,f是任意的非线性转移函数,并且系统在离散时间展开,使得在所选间隔Δt,tk=kΔt。必须选择动作序列a0,a1,a2...,使得最优化性能的指标。例如,通过以最小的能量消耗将环境逐渐带入期望的温度可以最优化HVAC系统。
一个性能指标是K个步骤的累积成本J:
其中,g是所选操作成本,并且h是与最终状态xK关联的终端成本。
用于为任意函数f、g和h解决该最优化问题的方法是不存在的,仅知道了用于特殊情况的方案。例如,在线性二次型调节器(LQR)中,a是实数,f是线性的,并且g和h在状态x和控制a中是二次的。但是,在通常情况下,函数f不是线性的,并且成本函数g和h在状态和控制中不是二次的。在这样的情况下,通过数值方法可以找到最优控制。
描述时间的动态系统的展开的另一种方法是将其表示为马尔可夫决策过程(MDP)。通过四元组(S、A、R、P)来描述MDP,其中S是状态s的有限集合;A是动作a的有限集合;R是报酬函数,使得R(s,a)代表动作a在状态s中执行的报酬(分别地,成本);并且P是马尔可夫转移模型,其中P(s′|s,a)代表动作a在状态s中执行的情况下以状态s’结束的概率。
类似于上述情况,目标是找到最优化以累积报酬R(s,a)的角度所限定的性能指标的动作序列a0、a1、a2...。对于任意的转移模型P(s′|s,a)存在用于找到这样的最优动作序列的方法。
但是,MDP和描述连续状态空间动态系统的一组微分方程式之间的主要区别在于MDP的状态空间是离散的,即,该系统在任意给定时间仅可以处于有限个数的离散状态。因此,期望的是,将给定的连续状态空间动态系统转换成具有离散状态空间的马尔可夫决策过程(MDP),使得可以为MDP,并且为连续状态空间系统找到最优控制序列。
发明内容
连续动态系统被转换成具有离散状态的马尔可夫决策过程(MDP)。选择连续系统的预定个数的连续状态,其中各连续状态对应于MDP的一个离散状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010603151.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:适用于烹饪容器的防热把手
- 下一篇:一种远程集中抄表系统





