[发明专利]用于计算机辅助地学习对技术系统的控制和/或调节的方法有效
申请号: | 201010279903.X | 申请日: | 2010-09-09 |
公开(公告)号: | CN102023570A | 公开(公告)日: | 2011-04-20 |
发明(设计)人: | A·汉斯;S·乌德卢夫特 | 申请(专利权)人: | 西门子公司 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 张涛;李家麟 |
地址: | 德国*** | 国省代码: | 德国;DE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 计算机辅助 学习 技术 系统 控制 调节 方法 | ||
1.一种用于计算机辅助地学习对技术系统进行控制或调节的方法,其中该技术系统的运行由该技术系统在运行中能够采取的状态(s)以及在该技术系统的运行期间被执行并且将该系统的相应状态(s)转变为后继状态的动作来表征,其中
-基于在该技术系统的运行中所检测的包括状态(s)、动作(a)和后继状态(s′)的训练数据来学习质量函数(Q)和动作选择规则(∏(S)),其中质量函数(Q)对该技术系统的优化运行进行建模,并且动作选择规则(∏(S))在该技术系统运行时针对该技术系统的相应状态(s)说明要优选执行的一个或多个动作(a);
-在学习质量函数(Q)和动作选择规则(∏(S))期间,借助于不确定性传播来确定质量函数(Q)的统计不确定性的度量并且根据统计不确定性的度量以及对应于对质量函数(Q)的统计最小要求的确定性参数(ξ)来确定经过修改的质量函数,其中所述不确定性传播使用非对角元素被忽略的协方差矩阵;以及
-其中基于经过修改的质量函数来学习动作选择规则(∏(S))。
2.根据权利要求1所述的方法,其中在考虑到评估(R)和状态-动作概率(P)的情况下学习质量函数(Q),其中相应的评估(R)在该技术系统的优化运行方面对状态(s)、在该状态中所执行的动作(a)以及后继动作(s′)的组合的质量进行评估,并且相应的状态-动作概率(P)根据状态和在该状态中所执行的动作(a)来说明后继状态(s′)的概率(P)。
3.根据权利要求2所述的方法,其中基于Bellman迭代来学习质量函数(Q)和动作选择规则(∏(S)),其中在每个迭代步骤中确定新的质量函数(Q)和质量函数(Q)的统计不确定性的新度量并且由此确定经过修改的新的质量函数,其中在相应的迭代步骤中,在忽略非对角元素的情况下根据质量函数(Q)、状态-动作概率(P)以及评估(R)来确定协方差矩阵。
4.根据权利要求3所述的方法,其中在Bellman迭代的第m个迭代步骤中,基于如下动作as,max确定所述动作选择规则:
其中
是第m个迭代步骤中的质量函数的统计不确定性的度量其中
γ∈[0,1]是折扣因子;
ξ是确定性参数;
P(s′|s,a)是在状态s中执行动作a时的后继状态s′的状态-动作概率;
R(s,a,s′)是在状态s中执行动作a时的后继状态s′的评估;
σP(s′|s,a)是状态-动作概率的统计不确定性;
σR(s,a,s′)是评估的统计不确定性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西门子公司,未经西门子公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010279903.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于形成环境冷却或加热系统的模块化面板
- 下一篇:内燃机的燃料喷射控制装置