[发明专利]利用分层强化学习的自主行为生成在审
| 申请号: | 202080081303.4 | 申请日: | 2020-10-06 |
| 公开(公告)号: | CN114746867A | 公开(公告)日: | 2022-07-12 |
| 发明(设计)人: | S·索莱曼;D·科斯拉 | 申请(专利权)人: | 赫尔实验室有限公司 |
| 主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/04;G06N3/08 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 张亚静;王小东 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 利用 分层 强化 学习 自主 行为 生成 | ||
描述了一种用于自主行为生成的系统。该系统包括高级控制器和低级控制器两者。高级控制器接收来自环境的观测结果,并且使用神经网络,基于来自环境的观测结果选择高级行为。低级控制器基于所选择的一个高级行为,生成用于脚本化动作的输出命令。在生成输出命令之后,该系统可以实现动作,诸如使装置执行该脚本化动作。
政府权利
本发明以美国政府合同编号HR0011-19-90018在政府支持下做出。政府在本发明中具有特定权利。
相关申请的交叉引用
本申请是2020年2月17日提交的序列号为No.16/792,869的美国申请的部分继续申请,该美国申请是2019年3月5日提交的美国临时申请No.62/814,133的非临时专利申请,其全部内容通过引用并入于此。
本申请还要求2019年12月23日提交的美国临时申请No.62/953,008的权益并且作为其非临时专利申请,其全部内容通过引用并入于此。
发明背景
(1)发明领域
本发明涉及学习系统,并且更具体地,涉及允许使用分层强化学习来进行自主行为生成的学习系统。
(2)相关技术描述
在多种应用中采用了强化学习(RL)系统,以根据过去的决策或场景进行学习,以便增强新的决策制定动作。许多研究人员尝试提高这种RL系统的准确度。举例来说,动态脚本(Dynamic Scripting)是由Tilburg University的Pieter Spronck所描述的相关方法。具体地,动态脚本由Pieter Spronck、Marc Ponsen、Ida Sprinkhuizen-Kuyper和EricPostma(2006)在Adaptive Game AI with Dynamic Scripting.Machine Learning,Vol.63,No.3,pp.217-248,(Springer DOI:10.1007/s10994-006-6205-6)中进行了描述,并且由Armon Toubman、Jan-Joris Roessingh、Pieter Spronck、Aske Plaat和Jaap vanden Herik(2014)在Dynamic Scripting with Team Coordination in Air CombatSimulation,Proceedings of the 27th International Conference on Industrial,EngineeringOther Applications of Applied Intelligent Systems,Springer-Verlag(呈现于IEAAIE 2014会议)中进行了描述,这两者的公开文本通过引用并入本文。尽管spronck等人在RL系统方面取得了一些进展,但是他们的方法将不同于神经网络的机器学习模型用于行为的高级选择。这种模型在其进行复杂决策制定的能力方面受到限制。
在其它工作中,名称为“System for combining plurality of input controlpolicies to provide a compositional output control policy”的美国专利No.6,473,851('851专利)(也通过引用并入本文)描述了一种主要限制与动态脚本相同的的方法。尽管在'851专利中描述的工作并入了随机策略混合,但是最终所得的模型在其用于复杂决策制定的能力方面也是有限的。
因此,持续需要这样一种系统,即,该系统使用与高级神经网络模型集成的专门强化学习技术来提供复杂的高级决策制定。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于赫尔实验室有限公司,未经赫尔实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080081303.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:环氧基热界面材料
- 下一篇:用于户外设备的通风和温度调节开口





