[发明专利]用于计算机辅助地学习对技术系统的控制和/或调节的方法有效

申请号：	201010279903.X	申请日：	2010-09-09
公开（公告）号：	CN102023570A	公开（公告）日：	2011-04-20
发明（设计）人：	A·汉斯;S·乌德卢夫特	申请（专利权）人：	西门子公司
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	中国专利代理(香港)有限公司 72001	代理人：	张涛;李家麟
地址：	德国***	国省代码：	德国;DE
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于计算机辅助学习技术系统控制调节方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于计算机辅助地学习对技术系统进行控制或调节的方法，其中该技术系统的运行由该技术系统在运行中能够采取的状态(s)以及在该技术系统的运行期间被执行并且将该系统的相应状态(s)转变为后继状态的动作来表征，其中

-基于在该技术系统的运行中所检测的包括状态(s)、动作(a)和后继状态(s′)的训练数据来学习质量函数(Q)和动作选择规则(∏(S))，其中质量函数(Q)对该技术系统的优化运行进行建模，并且动作选择规则(∏(S))在该技术系统运行时针对该技术系统的相应状态(s)说明要优选执行的一个或多个动作(a)；

-在学习质量函数(Q)和动作选择规则(∏(S))期间，借助于不确定性传播来确定质量函数(Q)的统计不确定性的度量并且根据统计不确定性的度量以及对应于对质量函数(Q)的统计最小要求的确定性参数(ξ)来确定经过修改的质量函数，其中所述不确定性传播使用非对角元素被忽略的协方差矩阵；以及

-其中基于经过修改的质量函数来学习动作选择规则(∏(S))。

2.根据权利要求1所述的方法，其中在考虑到评估(R)和状态-动作概率(P)的情况下学习质量函数(Q)，其中相应的评估(R)在该技术系统的优化运行方面对状态(s)、在该状态中所执行的动作(a)以及后继动作(s′)的组合的质量进行评估，并且相应的状态-动作概率(P)根据状态和在该状态中所执行的动作(a)来说明后继状态(s′)的概率(P)。

3.根据权利要求2所述的方法，其中基于Bellman迭代来学习质量函数(Q)和动作选择规则(∏(S))，其中在每个迭代步骤中确定新的质量函数(Q)和质量函数(Q)的统计不确定性的新度量并且由此确定经过修改的新的质量函数，其中在相应的迭代步骤中，在忽略非对角元素的情况下根据质量函数(Q)、状态-动作概率(P)以及评估(R)来确定协方差矩阵。

4.根据权利要求3所述的方法，其中在Bellman迭代的第m个迭代步骤中，基于如下动作a_s，max确定所述动作选择规则：

∀s:as,max=argmaxa[Qm(s,a)-ξσQm(s,a)]]]>