[发明专利]使用上下文信息进行蒙特卡罗规划的方法和系统在审
申请号: | 201310009910.1 | 申请日: | 2013-01-10 |
公开(公告)号: | CN103208041A | 公开(公告)日: | 2013-07-17 |
发明(设计)人: | G·J·泰绍罗;A·贝格尔兹莫;R·B·塞加尔;M·N·韦格曼 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;张亚非 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 上下文 信息 进行 蒙特卡罗 规划 方法 系统 | ||
1.一种用于选择规划问题状态下的操作的方法,所述方法包括:
在所述规划问题状态的模拟模型中运行多个模拟试验,所述模拟试验包含在所述状态下导致模拟回报结果的至少一个可用顶级操作;
响应于在所述模拟试验中获得的所述模拟回报结果,在完成所述模拟试验时推荐要在所述规划问题状态下执行的操作,
其中所述模拟试验中的至少一个模拟试验执行一个或多个步骤,所述步骤包括:
观察模拟状态下的上下文状态信息;以及
响应于所观察的上下文状态信息而选择所述模拟状态下的可用操作;
其中包括至少一个处理器和连接到所述处理器的至少一个存储设备的计算系统执行所述运行、推荐、观察和选择。
2.根据权利要求1的方法,其中模拟试验的所述一个或多个步骤进一步包括:
响应于所观察的上下文状态信息而估计所述模拟状态下的至少一个可用操作的预期回报,其中响应于所观察的上下文状态信息而选择所述模拟状态下的可用操作包括:响应于可用操作的估计预期回报而选择所述模拟状态下的可用操作。
3.根据权利要求2的方法,其中模拟试验的所述一个或多个步骤进一步包括:
响应于模拟操作而观察多个模拟回报,以及
更新所述模拟试验中的对应顶级操作处的模拟回报统计;所述计算系统还执行所述观察和更新。
4.根据权利要求3的方法,其中模拟试验的所述一个或多个步骤进一步包括:
响应于所选择的操作而模拟向新状态的转变,所观察的多个模拟回报响应于以下项中的一个或多个:所选择的操作或所述状态转变。
5.根据权利要求3的方法,其中模拟试验的所述一个或多个步骤进一步包括:
维护数据对集合,所述数据对包括所观察的上下文状态信息和与所选择的可用操作关联的所观察的对应模拟回报。
6.根据权利要求5的方法,其中从所观察的上下文状态信息估计所述预期回报包括:
在模拟试验的所述一个或多个步骤期间,实施回归模型并计算有关与可用操作关联的所述数据对集合的回归拟合;
根据所实施的回归模型估计以下项中的一个或多个:平均预期回报或所述平均值中的不确定性;以及
响应于以下项中的一个或多个而计算效用:所估计的平均回报或所估计的所述平均值中的不确定性,其中根据所计算的效用而选择所述操作。
7.根据权利要求6的方法,其中根据所计算的效用而选择操作包括:计算多个可用操作的效用,以及选择具有所计算的最大效用的操作。
8.根据权利要求4的方法,其中所观察的多个模拟回报包括在所述模拟向新状态的转变时观察的立即回报,或包括还包含在所述模拟试验的后续步骤中所观察的模拟回报的累积回报。
9.根据权利要求6的方法,其中估计所述平均值中的不确定性包括:
向所述数据对添加包括当前上下文状态信息和最大回报值的额外数据对;
重新计算有关所述数据对的回归拟合;
根据重新计算的回归拟合重新估计所述平均预期回报;以及
根据原始平均预期回报和重新计算的平均预期回报之间的差估计所述平均值中的不确定性。
10.一种用于选择规划问题状态下的操作的系统,所述系统包括:
所述规划问题的模拟器,其包括至少一个处理器;以及
连接到所述处理器的至少一个存储设备,其中所述处理器被编程以执行以下操作:
在所述规划问题状态的模拟模型中运行多个模拟试验,所述模拟试验包含在所述状态下导致模拟回报结果的至少一个可用顶级操作;
响应于在所述模拟试验中获得的所述模拟回报结果,在完成所述模拟试验时推荐要在所述规划问题状态下执行的操作,
其中所述处理器还被编程以在所述模拟试验中的至少一个模拟试验中执行一个或多个步骤,所述步骤包括:
观察模拟状态下的上下文状态信息;以及
响应于所观察的上下文状态信息而选择所述模拟状态下的可用操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310009910.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:真菌固体发酵培养基
- 下一篇:一种镀锌无铬彩色钝化剂
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置