[发明专利]部分可观察设置中的反馈驱动的决策支持在审
| 申请号: | 202010737487.7 | 申请日: | 2020-07-28 |
| 公开(公告)号: | CN112308234A | 公开(公告)日: | 2021-02-02 |
| 发明(设计)人: | S·尤帕德哈雅;Y·克哈泽尼;D·鲍内佛夫;M·阿格尔瓦尔 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62;A63F13/67 |
| 代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 刘玉洁 |
| 地址: | 美国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 部分 观察 设置 中的 反馈 驱动 决策 支持 | ||
1.一种用于在强化学习系统中使用有限特征进行决策的方法,所述方法包括:
a)获得与最初可观察特征列表、最初不可观察特征列表以及与计算机系统有关的可观察特征的最大数量相对应的最初可观察特征值,其中强化学习代理与所述计算机系统交互;
b)由所述强化学习代理从动作集合中选择动作,以使所述计算机系统从一个状态转移到另一个状态,由此将所述动作的选择建模为强化学习策略;
c)由所述强化学习代理执行已被选择的所述动作,以使所述计算机系统从一个状态转移到另一个状态;
d)使用所述最初可观察特征值和可观察特征的所述最大数量,来选择使用用于特征选择的第一强化学习策略揭示哪些最初不可观察特征;
e)使用所述最初可观察特征以及已被揭示的所述最初不可观察特征,使用用于决策选择的第二强化学习策略从所述动作集合中选择下一动作;
f)基于已被选择的所述下一动作,使用反馈来更新所述第一强化学习策略和所述第二强化学习策略;以及
g)在可设置的迭代次数上重复步骤d到步骤g。
2.如权利要求1所述的方法,其中步骤d)至步骤f)被应用于上下文游戏机算法。
3.如权利要求2所述的方法,还包括:
获得特征的总数、要在可设置数量的阶段上观察的期望特征的总数;以及
步骤d到步骤g还包括针对可设置数量的阶段迭代以下操作:
使用上下文组合游戏机方法接着使用上下文游戏机方法来选择特征的子集。
4.如权利要求2所述的方法,还包括:
获得特征的总数、要在可设置数量的阶段上观察的期望特征的总数;以及
步骤d到步骤g还包括针对可设置数量的阶段迭代以下操作中的每个操作:
使用上下文组合游戏机方法接着使用上下文游戏机方法来选择特征的子集;
使用由GP-UCB算法计算的衰减参数来更新第一强化学习策略和第二强化学习策略中的至少一个。
5.如权利要求1所述的方法,其中,所述最初可观察特征值是数字特征值、结构特征值、字符串值和图形值中的一个或多个。
6.如权利要求1所述的方法,其中,所述最初可观察特征是患者病史中的一个或多个,并且所述最初不可观察特征是可用的患者测试。
7.如权利要求1所述的方法,其中,所述最初可观察特征是语音对话话语和用户历史中的一个或多个,并且所述最初不可观察特征是可用响应。
8.如权利要求1所述的方法,其中,所述最初可观察特征是用户信息历史中的一个或多个,并且所述最初不可观察特征是可用响应。
9.一种用于使用强化学习系统中的有限特征进行决策的计算机程序产品,所述计算机程序产品包括具有存储在其中的计算机可读程序的计算机可读存储介质,其中,所述计算机可读程序当在计算设备上执行时使所述计算设备执行如权利要求1至8中任一项所述的方法的步骤。
10.一种用于使用强化学习系统中的有限特征进行决策的系统,包括:
处理器;以及
耦合到所述处理器的存储器,其中所述存储器包括指令,所述指令当由所述处理器执行时使所述处理器执行如权利要求1至8中任一项所述的方法的步骤。
11.一种用于使用强化学习系统中的有限特征进行决策的装置,包括用于实现如权利要求1至8中任一项所述的方法的步骤的模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010737487.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图像形成装置以及图像形成装置诊断系统
- 下一篇:液体吸收器和液体喷出装置





