[发明专利]学习装置和学习方法在审
申请号: | 201780078843.5 | 申请日: | 2017-12-14 |
公开(公告)号: | CN110088779A | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 中田健人;成平拓也;铃木洋贵;大里章人 | 申请(专利权)人: | 索尼公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王萍;李彦丽 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化学习 校正 学习装置 模型信息 个人计算机PC 学习 显示控制部 移动策略 代理体 校正部 应用 | ||
本公开内容涉及一种学习装置和学习方法,利用所述学习装置和学习方法可以基于用户输入来容易地校正强化学习模型。显示控制部使显示部显示与强化学习模型相关的强化学习模型信息。校正部基于来自用户的关于强化学习模型信息的输入来校正强化学习模型。本公开内容可以应用于例如个人计算机PC,其基于来自用户的输入来校正强化学习模型并且通过强化学习、使用经校正的强化学习模型来学习代理体的移动策略。
技术领域
本公开内容涉及学习装置和学习方法,并且具体地涉及允许基于用户输入来容易地校正强化学习模型的学习装置和学习方法。
背景技术
存在强化学习模型,其当给出代理体(agent)、环境、行动和报酬时学习用于最大化报酬的策略(例如,参见NPL 1)。
[引用列表]
[非专利文献]
[NPL 1]“Maximum Entropy Inverse Reinforcement Learning”,BrianD.Ziebart,Andrew Maas,J.Andrew Bagnell,and Anind K.Dey,the Association forthe Advancement of Artificial Intelligence(AAAI),2008.7.13
发明内容
[技术问题]
然而,尚未设计出基于用户输入容易地校正强化学习模型。
鉴于前述情况提出了本公开内容,并且本公开内容允许基于用户输入来容易地校正强化学习模型。
[问题的解决方案]
根据本公开内容的一个方面的学习装置包括:显示控制部,被配置成使显示部显示关于强化学习模型的强化学习模型信息;以及校正部,被配置成基于对强化学习模型信息的用户输入来校正强化学习模型。
根据本公开内容的一个方面的学习方法对应于根据本公开内容的一个方面的学习装置。
根据本公开内容的一个方面,在显示部上显示关于强化学习模型的强化学习模型信息,并且基于对强化学习模型信息的用户输入来校正强化学习模型。
注意,根据本公开内容的第一方面的学习装置可以通过使计算机执行程序来实现。
此外,为了实现根据本公开内容的第一方面的学习装置,要由计算机执行的程序可以通过经由传输介质传输程序或通过在记录介质上记录程序来提供。
[发明的有益效果]
根据本公开内容的一个方面,可以基于用户输入容易地校正强化学习模型。
注意,本文所描述的效果不一定是限制性的,并且可以提供在本公开内容中描述的效果中的任意效果。
附图说明
[图1]图1是描绘PC作为应用本公开内容的学习装置的第一实施方式的配置的示例的框图。
[图2]图2是用于描述环境图的图。
[图3]图3是用于描述环境图的另一个图。
[图4]图4是描绘其上叠加有策略信息的环境图的示例的图。
[图5]图5是用于描述教导移动策略的第一方法的图。
[图6]图6是用于描述教导移动策略的第一方法的另一个图。
[图7]图7是用于描述教导移动策略的第二方法的图。
[图8]图8是用于描述图1中的PC的移动策略学习处理的流程图。
[图9]图9是用于描述图8中的校正处理的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780078843.5/2.html,转载请声明来源钻瓜专利网。