[发明专利]利用密度比估计的直接逆向强化学习有效
| 申请号: | 201780017406.2 | 申请日: | 2017-02-07 |
| 公开(公告)号: | CN108885721B | 公开(公告)日: | 2022-05-06 |
| 发明(设计)人: | 内部英治;铜谷贤治 | 申请(专利权)人: | 学校法人冲绳科学技术大学院大学学园 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N20/00 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 黄纶伟;师玮 |
| 地址: | 日本*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: |
一种用于估计对象的行为的回报与价值函数的逆向强化学习的方法,该方法包括:获取表示状态变量的变化的数据,状态变量定义所述对象的行为;将由式(1)给出的修正Bellman方程应用至所获取的数据, |
||
| 搜索关键词: | 利用 密度 估计 直接 逆向 强化 学习 | ||
【主权项】:
1.一种用于估计对象的行为的回报函数与价值函数的逆向强化学习的方法,所述方法包括:获取表示状态变量的变化的数据,所述状态变量定义所述对象的行为;将式(1)给出的修正Bellman方程应用至所获取的数据,
其中,r(x)和V(x)分别表示状态x下的回报函数和价值函数,γ表示折扣因子,并且b(y|x)和π(y|x)分别表示学习之前和学习之后的状态转换概率;估计式(2)中的密度比π(x)/b(x)的对数;根据密度比π(x,y)/b(x,y)的对数的估计结果,在式2中估计r(x)和V(x);以及输出所估计的r(x)和V(x)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于学校法人冲绳科学技术大学院大学学园,未经学校法人冲绳科学技术大学院大学学园许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201780017406.2/,转载请声明来源钻瓜专利网。





