[发明专利]使用上下文信息进行蒙特卡罗规划的方法和系统在审
申请号: | 201310009910.1 | 申请日: | 2013-01-10 |
公开(公告)号: | CN103208041A | 公开(公告)日: | 2013-07-17 |
发明(设计)人: | G·J·泰绍罗;A·贝格尔兹莫;R·B·塞加尔;M·N·韦格曼 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;张亚非 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 上下文 信息 进行 蒙特卡罗 规划 方法 系统 | ||
技术领域
本公开一般地涉及用于例如在实际域中进行规划和序贯决策(sequential decision making)的系统和方法。更具体地说,本申请涉及使用可观察状态信息的创新性分解通过蒙特卡罗模拟试验进行规划,所述信息分解能够比使用既定的最新方法处理更大的状态空间。
背景技术
规划问题(也称为序贯决策问题)通常由以下项来表征:所述问题的一组可能状态、可以在每个状态下执行的一组可允许的操作、用于在给定当前状态和当前选定操作下生成向后续状态的转变的过程、规划周期(即,在所述问题中要进行的总预期决策数量),以及在所述规划问题的一个或多个步骤处获得的效用或回报的度量。通常,目标是计算一系列最大化预期累积折扣或未折扣回报的决策。此外,规划问题假设可在序列中的每个步骤处使用与所述问题的状态有关的可观察信息。如果可观察信息唯一地标识状态,并且生成回报和状态转变的过程是固定的并且与历史无关,则所述问题在形式上被分类为马尔可夫决策过程(MDP)。备选地,如果可观察信息未唯一地标识状态,则所述问题是部分可观察马尔可夫决策过程(POMDP),假如回报和状态转变过程仍是固定的并且与历史无关的话。
蒙特卡罗规划方法使用实际域的模拟模型,并根据蒙特卡罗模拟试验估计在给定状态下执行操作的累积回报。此类模拟试验包括一个或多个步骤,每个步骤通常包括模拟以下项:在当前模拟状态下执行操作、生成向新状态的转变,以及生成立即回报(如果适用)。通过模拟策略(即,响应于在模拟试验的当前或先前步骤中观察到的信息而选择可用合法操作之一的方法)执行每个步骤处的操作选择。假设蒙特卡罗模拟试验的结果是非确定的。非确定性可能由非确定的回报或状态转变引起,以及由使用非确定的模拟策略引起。因此,蒙特卡罗模拟试验提供一种在统计上评估通过在模拟域的给定状态下执行给定操作而获得的长期累积预期回报的手段。
用于根据蒙特卡罗模拟试验进行规划的许多方法都是本领域公知的。一种最早并且最简单的方法是所谓的“轮换(rollout)算法”(G.Tesauro和G.R.Galperin,“On-line policy improvement using Monte-Carlo search(使用蒙特卡罗搜索的在线策略改进)”,Advances in Neural InformationProcessing Systems,第9卷,第1068-1074页,1997年)。在此方法中,执行多个模拟试验(“轮换”),每个试验从对应于实际域的当前状态的公共初始状态开始。每个试验包括根据抽样策略选择根状态下的合法操作,然后由固定模拟策略执行试验的后续步骤中的操作。针对每个顶级操作维护平均回报统计,并且在所有模拟试验终止时,所述方法返回具有最高平均回报的顶级操作以便在实际域中执行。
最近,发布了多种蒙特卡罗规划方法(例如,L.Kocsis和Cs.Szepesvari,“Bandit-based Monte-Carlo Planning(基于匪徒的蒙特卡罗规划)”,欧洲机器学习会议的会议记录,第282-293页,2006年),它们将轮换算法扩展到多个评估级别。即,除了顶级步骤之外,还在试验的后续步骤处计算和维护平均回报统计。这通常通过以下操作完成:维护在试验期间遇到的“节点”集合(即,状态的符号表示,或给定状态下的合法操作)、在每个试验结束时计算总回报,然后根据在试验中获得的总回报更新参与给定试验的节点的平均回报统计。抽样策略(例如,根据多臂匪徒理论(multi-armed bandit theory)的抽样)不仅用于初始步骤,而且还用于试验的后续步骤。尽管这些方法能够在节点之间具有任意拓扑关系的域中产生有效的序贯规划(例如,具有多个到给定状态的路径以及循环返回先前所遇状态的通用MDP),但这些方法的优选实施例包括以严格树结构组织的节点。由于此原因,所述方法通常称为蒙特卡罗树搜索(MCTS)方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310009910.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:真菌固体发酵培养基
- 下一篇:一种镀锌无铬彩色钝化剂
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置