[发明专利]一种结合TAMER框架和面部表情反馈的交互强化学习方法在审
申请号: | 201910967991.3 | 申请日: | 2019-10-12 |
公开(公告)号: | CN110826723A | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 李光亮;林金莹;张期磊;何波;冯晨 | 申请(专利权)人: | 中国海洋大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F3/01;G06K9/00 |
代理公司: | 北京汇捷知识产权代理事务所(普通合伙) 11531 | 代理人: | 马金华 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 tamer 框架 面部 表情 反馈 交互 强化 学习方法 | ||
1.一种结合TAMER框架和面部表情反馈的交互强化学习方法,其特征在于,所述结合TAMER框架和面部表情反馈的交互强化学习方法结合TAMER框架和面部表情评估形成FaceValuing-TAMER;TAMER通过从人类反馈中学习值函数来预期未来奖励;训练者首先在TAMER框架下训练智能体,通过键盘按键反馈提供奖励信号,训练智能体获得一个初始的可执行策略,然后允许训练者通过面部表情反馈提供奖励调整智能体的行为。
2.如权利要求1所述的结合TAMER框架和面部表情反馈的交互强化学习方法,其特征在于,所述结合TAMER框架和面部表情反馈的交互强化学习方法包括以下步骤:
步骤一,Face Valuing-TAMER允许人类训练者在TAMER框架下训练智能体;智能体根据当前状态选择动作;
步骤二,人类训练者观察并通过键盘按键等接口提供明确反馈作为奖励信号;
步骤三,更新奖励函数及值函数;
步骤四,更新智能体的行为策略;
步骤五,智能体通过键盘反馈学习获得一个初始的可执行策略;
步骤六,人类训练者通过表情反馈提供奖励调整智能体的行为,对策略进行调整检测是否达到满意状态;若满意则结束,若不满意则重新通过表情反馈对策略进行调整。
3.如权利要求2所述的结合TAMER框架和面部表情反馈的交互强化学习方法,其特征在于,所述智能体从人类反馈中进行学习的算法包括:
TAMER通过从人类反馈中学习的预测奖励模型学习值函数:
其中,Rt+1表示在状态St采取动作At后收到的奖励;Gt是在时间实例t上的预期回报,被定义为在时间t之后的奖励的折扣总和;vπ(s)是对应于每一个策略π的状态值函数,通过遵循策略π将每个状态s∈S映射到该状态的预期奖励Gt;qπ(s,a)是对应于每一个策略π的动作值函数,通过遵循策略π,在状态s下执行动作a来提供预期的回报Gt;
当给定任务需要预测时,状态值函数非常重要,相反,如果给定的任务需要控制,使用动作值函数qπ(s,a);人类训练者能够通过键盘按键或者面部表情提供奖励反馈调整智能体的行为。
4.如权利要求1所述的结合TAMER框架和面部表情反馈的交互强化学习方法,其特征在于,所述结合TAMER框架和面部表情反馈的交互强化学习方法的一个TAMER智能体学习一个函数近似于在当前状态和行动下预期的人类奖励,给定一个状态s,智能体短期的选择了最大的预期回报,训练者观察和评估智能体的行为并给予奖励;
在TAMER中,每一个反馈按钮的按下都被标记为一个标量奖励信号-1或+1,通过多次按下按钮加强,样本的标签作为延迟加权的总回报,根据针对特定time step的人类奖励信号的概率计算的,TAMER学习算法不断重复采取行动,感知奖励,并更新过程;
把TAMER作为智能体从人类奖励中学习的方法,并把γTAMER作为人类奖励的折扣因子。
5.一种应用权利要求1~4任意一项所述合TAMER框架和面部表情反馈的交互强化学习方法的信息数据处理终端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910967991.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于飞机平台的灭火方法及系统
- 下一篇:一种触控显示装置