[发明专利]学习装置、模拟系统、学习方法及存储介质有效
| 申请号: | 201910799036.3 | 申请日: | 2019-08-27 |
| 公开(公告)号: | CN110871811B | 公开(公告)日: | 2023-01-03 |
| 发明(设计)人: | 后藤建 | 申请(专利权)人: | 本田技研工业株式会社 |
| 主分类号: | B60W50/00 | 分类号: | B60W50/00 |
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 孙尚昆 |
| 地址: | 日本*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 学习 装置 模拟 系统 学习方法 存储 介质 | ||
1.一种学习装置,其是车辆的模拟用的学习装置,且具备分别与动作主体建立了对应关系的多个单独学习部,其中,
各个单独学习部具备:
规划器,其生成规定与自身对应的动作主体的动作的信息;以及
报酬导出部,其导出对包括反馈信息的被评价信息进行评价而得到的报酬,所述反馈信息通过将基于规定所述动作主体的动作的信息得到的信息向模拟器输入而从所述模拟器得到,
所述报酬导出部分别使用与多个输入值对应的多个映射而导出报酬,所述多个输入值分别表示所述动作主体的速度、加速度、横向位置及车间距离、或风险,
所述规划器进行基于由所述报酬导出部导出的报酬的强化学习,
在所述多个单独学习部中的至少两个中,所述报酬导出部使用的所述映射不同。
2.根据权利要求1所述的学习装置,其中,
在所述多个单独学习部中的至少两个中,成为所述规划器生成信息的前提的所述动作主体的动作特性不同。
3.根据权利要求1所述的学习装置,其中,
在所述多个单独学习部中的至少两个中,所述报酬导出部对所述被评价信息进行评价的规则不同。
4.根据权利要求1所述的学习装置,其中,
所述动作是指移动。
5.一种模拟系统,其中,
所述模拟系统具备:
权利要求1所述的学习装置;以及
所述模拟器。
6.一种学习方法,其是车辆的模拟用的学习方法,其中,
由计算机作为分别与动作主体建立了对应关系的多个单独学习部而发挥功能,
各个单独学习部进行如下处理:
生成规定与自身对应的动作主体的动作的信息;
导出对包括反馈信息的被评价信息进行评价而得到的报酬,所述反馈信息通过将基于规定所述动作主体的动作的信息得到的信息向模拟器输入而从所述模拟器得到,
在导出所述报酬时,分别使用与多个输入值对应的多个映射而导出报酬,所述多个输入值分别表示所述动作主体的速度、加速度、横向位置及车间距离、或风险;以及
进行基于导出的所述报酬的强化学习,
在所述多个单独学习部中的至少两个中,使用的所述映射不同。
7.一种存储介质,其中,
所述存储介质存储有车辆的模拟用的程序,所述程序使计算机作为分别与动作主体建立了对应关系的多个单独学习部而发挥功能,
各个单独学习部进行如下处理:
生成规定与自身对应的动作主体的动作的信息;
导出对包括反馈信息的被评价信息进行评价而得到的报酬,所述反馈信息通过将基于规定所述动作主体的动作的信息得到的信息向模拟器输入而从所述模拟器得到,
在导出所述报酬时,分别使用与多个输入值对应的多个映射而导出报酬,所述多个输入值分别表示所述动作主体的速度、加速度、横向位置及车间距离、或风险;以及
进行基于导出的所述报酬的强化学习,
在所述多个单独学习部中的至少两个中,使用的所述映射不同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于本田技研工业株式会社,未经本田技研工业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910799036.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于超声导航的系统和方法
- 下一篇:学习装置、学习方法及存储介质





