[发明专利]一种从演示和人类评估反馈进行交互强化学习的方法在审
申请号: | 201910281347.0 | 申请日: | 2019-04-09 |
公开(公告)号: | CN110070185A | 公开(公告)日: | 2019-07-30 |
发明(设计)人: | 李光亮;何波;冯晨;林金莹;张期磊 | 申请(专利权)人: | 中国海洋大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京汇捷知识产权代理事务所(普通合伙) 11531 | 代理人: | 马金华 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化学习 演示 反馈 智能体 评估 学习 奖励 | ||
本发明公开了一种从演示和人类评估反馈进行交互强化学习的方法,结合逆强化学习IRL和TAMER框架形成IRL‑TAMER。本发明的有益效果是本学习方法使智能体能够有效的从人类奖励和示范中进行学习。
技术领域
本发明属于人工智能技术领域,涉及一种从演示和人类评估反馈进行交互强化学习的方法。
背景技术
人工智能(AI)研究正经历着爆炸式的繁荣发展,其核心目标是部署自主智能体来解决现实世界的问题。在人工智能蓬勃发展的情形下,自主智能体如雨后春笋般涌现出来,并开始进入人们的日常生活。由于应用于现实世界应用程序的大多数智能体将活跃在人类聚居的环境中,因此以自然的方式与人类用户交互和从人类用户中学习的技能将是它们成功的关键。通过人类评估反馈进行强化学习已经被证明是一种非常有效的方法,它可以帮助非技术人员指导智能体执行任务。然而,在从人类奖励中进行学习时,智能体仍需要通过不断的试错过程来学习:当智能体执行正确的行动时,可以用一个积极的奖励来鼓励它,当一个坏的行动被执行时,需要用惩罚告诉智能体尝试其他的动作,这可能会带来一定的风险,因为智能体可能会采取更糟糕的行为。在某些情况下,这将使智能体学习行为变得危险或需要更高成本,特别是对于机器人的学习,例如,学习驾驶汽车。另一方面,从示范中学习是另一种主要的自然教学方法,使智能体能够自主的向非技术人员学习,在这种学习方法中可以直接由示范者传达正确的行为给智能体,用这种方法学习比从奖励信号中学习的速度更快。即使人类训练者不是这项任务的专家而且也不能提供正确的行为,从示范中学习仍然可以突出一个子空间供智能体探索。然而智能体从示范中学习的表现通常会被训练者的表现所限制,而智能体从人的奖励中学习的表现一般会超过训练者在任务中的表现。因此,如果能把示范的方法推广到从人类奖励中学习的方法中去,这会减少智能体在学习过程中的失败的概率并加快其学习速度,同时智能体最终能学会一种有可能超越教师表现的策略。事实上这是人们在现实生活中更愿意教智能体做的事情。一个名为“Wizard of OZ”的实验研究了一个人类教师的教授风格,当他在被给予了几种不同的教学方法来教授一个智能体时,这个智能体同时接受其他教师(the wizard)的秘密控制。他们发现,人类奖励的教学从来没有单独采用,而是在测试了智能体通过其他教学方法(如示范或概念示例的教学)学习到的技能后,用来微调所学到的行为。
发明内容
本发明的目的在于提供一种从演示和人类评估反馈进行交互强化学习的方法,本发明的有益效果是本学习方法使智能体能够有效的从人类奖励和示范中进行学习。
本发明所采用的技术方案是结合逆强化学习IRL和TAMER框架形成IRL-TAMER。
进一步,IRL-TAMER由两个顺序运行的算法组成:
(1)IRL从人类训练者提供的示范中学习奖励函数:其中,w=(ω0,...ωm-1)T是奖励函数R的基函数权重向量,m-1是参数的总数,φ(s,a)是一个基于状态的基函数向量;
(2)TAMER通过从人类奖励中学习的预测奖励模型学习值函数:其中,是根据智能体的动作反馈的人类奖励函数,T(s,a,s′)是转换函数,Q(s,a)是在某一时刻的s状态下采取动作a能够获得奖励的期望,s和a为当前的状态和动作,s′与a′为下一步的状态和动作。
进一步,IRL-TAMER允许人类训练者首先提供示范,由状态动作对序列{(s0,a0),...,(sn,an)}组成,从示范中通过IRL学习到的奖励函数被当作TAMER中奖励函数的初始值使用,然后训练者能够通过人类奖励微调智能体的行为。
附图说明
图1是Grid World域的屏幕截图;
图2是仅使用一个示范通过IRL学习的值函数的热图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910281347.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:融合样本损失及优化速度约束的数据采样方法
- 下一篇:通过二维符号进行机器学习