[发明专利]使用上下文信息进行蒙特卡罗规划的方法和系统在审

专利信息
申请号: 201310009910.1 申请日: 2013-01-10
公开(公告)号: CN103208041A 公开(公告)日: 2013-07-17
发明(设计)人: G·J·泰绍罗;A·贝格尔兹莫;R·B·塞加尔;M·N·韦格曼 申请(专利权)人: 国际商业机器公司
主分类号: G06Q10/06 分类号: G06Q10/06
代理公司: 北京市中咨律师事务所 11247 代理人: 于静;张亚非
地址: 美国*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 使用 上下文 信息 进行 蒙特卡罗 规划 方法 系统
【说明书】:

技术领域

本公开一般地涉及用于例如在实际域中进行规划和序贯决策(sequential decision making)的系统和方法。更具体地说,本申请涉及使用可观察状态信息的创新性分解通过蒙特卡罗模拟试验进行规划,所述信息分解能够比使用既定的最新方法处理更大的状态空间。

背景技术

规划问题(也称为序贯决策问题)通常由以下项来表征:所述问题的一组可能状态、可以在每个状态下执行的一组可允许的操作、用于在给定当前状态和当前选定操作下生成向后续状态的转变的过程、规划周期(即,在所述问题中要进行的总预期决策数量),以及在所述规划问题的一个或多个步骤处获得的效用或回报的度量。通常,目标是计算一系列最大化预期累积折扣或未折扣回报的决策。此外,规划问题假设可在序列中的每个步骤处使用与所述问题的状态有关的可观察信息。如果可观察信息唯一地标识状态,并且生成回报和状态转变的过程是固定的并且与历史无关,则所述问题在形式上被分类为马尔可夫决策过程(MDP)。备选地,如果可观察信息未唯一地标识状态,则所述问题是部分可观察马尔可夫决策过程(POMDP),假如回报和状态转变过程仍是固定的并且与历史无关的话。

蒙特卡罗规划方法使用实际域的模拟模型,并根据蒙特卡罗模拟试验估计在给定状态下执行操作的累积回报。此类模拟试验包括一个或多个步骤,每个步骤通常包括模拟以下项:在当前模拟状态下执行操作、生成向新状态的转变,以及生成立即回报(如果适用)。通过模拟策略(即,响应于在模拟试验的当前或先前步骤中观察到的信息而选择可用合法操作之一的方法)执行每个步骤处的操作选择。假设蒙特卡罗模拟试验的结果是非确定的。非确定性可能由非确定的回报或状态转变引起,以及由使用非确定的模拟策略引起。因此,蒙特卡罗模拟试验提供一种在统计上评估通过在模拟域的给定状态下执行给定操作而获得的长期累积预期回报的手段。

用于根据蒙特卡罗模拟试验进行规划的许多方法都是本领域公知的。一种最早并且最简单的方法是所谓的“轮换(rollout)算法”(G.Tesauro和G.R.Galperin,“On-line policy improvement using Monte-Carlo search(使用蒙特卡罗搜索的在线策略改进)”,Advances in Neural InformationProcessing Systems,第9卷,第1068-1074页,1997年)。在此方法中,执行多个模拟试验(“轮换”),每个试验从对应于实际域的当前状态的公共初始状态开始。每个试验包括根据抽样策略选择根状态下的合法操作,然后由固定模拟策略执行试验的后续步骤中的操作。针对每个顶级操作维护平均回报统计,并且在所有模拟试验终止时,所述方法返回具有最高平均回报的顶级操作以便在实际域中执行。

最近,发布了多种蒙特卡罗规划方法(例如,L.Kocsis和Cs.Szepesvari,“Bandit-based Monte-Carlo Planning(基于匪徒的蒙特卡罗规划)”,欧洲机器学习会议的会议记录,第282-293页,2006年),它们将轮换算法扩展到多个评估级别。即,除了顶级步骤之外,还在试验的后续步骤处计算和维护平均回报统计。这通常通过以下操作完成:维护在试验期间遇到的“节点”集合(即,状态的符号表示,或给定状态下的合法操作)、在每个试验结束时计算总回报,然后根据在试验中获得的总回报更新参与给定试验的节点的平均回报统计。抽样策略(例如,根据多臂匪徒理论(multi-armed bandit theory)的抽样)不仅用于初始步骤,而且还用于试验的后续步骤。尽管这些方法能够在节点之间具有任意拓扑关系的域中产生有效的序贯规划(例如,具有多个到给定状态的路径以及循环返回先前所遇状态的通用MDP),但这些方法的优选实施例包括以严格树结构组织的节点。由于此原因,所述方法通常称为蒙特卡罗树搜索(MCTS)方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310009910.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top