[发明专利]利用分层强化学习的自主行为生成在审
申请号: | 202080081303.4 | 申请日: | 2020-10-06 |
公开(公告)号: | CN114746867A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | S·索莱曼;D·科斯拉 | 申请(专利权)人: | 赫尔实验室有限公司 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/04;G06N3/08 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 张亚静;王小东 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 分层 强化 学习 自主 行为 生成 | ||
1.一种用于自主行为生成的系统,所述系统包括:
一个或更多个处理器和一个或更多个关联的存储器,各个关联的存储器是非暂时性计算机可读介质,所述非暂时性计算机可读介质上编码有可执行指令,使得当执行所述可执行指令时,关联的一个或更多个处理器执行以下操作:
通过高级控制器接收来自环境的观测结果,并且使用神经网络,基于来自所述环境的所述观测结果选择高级行为;
通过低级控制器基于所选择的一个高级行为来生成针对脚本化动作的输出命令;以及
使装置执行所述脚本化动作。
2.根据权利要求1所述的系统,所述系统还包括以下操作:使用强化学习来对所述神经网络进行训练。
3.根据权利要求1所述的系统,其中,使装置执行所述脚本化动作包括对飞行场景中的飞行器进行控制。
4.根据权利要求1所述的系统,所述系统还包括以下操作:使用softmax学习函数来训练所述高级控制器内的强化学习代理,以产生选择不同的高级行为的概率。
5.根据权利要求1所述的系统,其中,对行为做出选择的同一神经网络还产生状态值输出,以供用作强化学习基线或者用于强化学习自举。
6.根据权利要求1所述的系统,所述系统还包括第二神经网络,所述第二神经网络产生状态值输出,以供用作强化学习基线或者用于强化学习自举。
7.根据权利要求1所述的系统,其中,所述神经网络基于所述环境的观测结果来产生动作值输出,并且其中,所述高级控制器使用关于所述动作值输出的softmax函数来选择所述高级行为。
8.根据权利要求1所述的系统,其中,所述高级控制器以比所述低级控制器选择脚本化动作的频度低的频度来选择行为。
9.根据权利要求1所述的系统,其中,利用强化学习对附加神经网络集进行训练,以使各个神经网络确定运行所述高级行为中的一个高级行为持续多长时间。
10.一种用于自主行为生成的计算机程序产品,所述计算机程序产品包括:
非暂时性计算机可读介质,所述非暂时性计算机可读介质上编码有可执行指令,以使在通过一个或更多个处理器执行所述指令时,所述一个或更多个处理器执行以下操作:
通过高级控制器接收来自环境的观测结果,并且使用神经网络,基于来自所述环境的所述观测结果选择高级行为;
通过低级控制器基于所选择的一个高级行为来生成针对脚本化动作的输出命令;以及
使装置执行所述脚本化动作。
11.根据权利要求10所述的计算机程序产品,所述计算机程序产品还包括被编码在非暂时性介质上以使所述一个或更多个处理器执行以下操作的指令:使用强化学习来对所述神经网络进行训练。
12.根据权利要求10所述的计算机程序产品,其中,使装置执行所述脚本化动作包括对飞行场景中的飞行器进行控制。
13.根据权利要求10所述的计算机程序产品,所述计算机程序产品还包括被编码在非暂时性介质上以使所述一个或更多个处理器执行以下操作的指令:使用softmax学习函数来训练所述高级控制器内的强化学习代理,以产生选择不同的高级行为的概率。
14.根据权利要求10所述的计算机程序产品,其中,对行为做出选择的同一神经网络还产生状态值输出,以供用作强化学习基线或者用于强化学习自举。
15.根据权利要求10所述的计算机程序产品,所述计算机程序产品还包括被编码在非暂时性介质上以使所述一个或更多个处理器使用第二神经网络来生成状态值输出,以供用作强化学习基线或者用于强化学习自举的指令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于赫尔实验室有限公司,未经赫尔实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080081303.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:环氧基热界面材料
- 下一篇:用于户外设备的通风和温度调节开口