[发明专利]一种无人车强化学习训练环境构建方法及其训练系统在审
| 申请号: | 202010619969.2 | 申请日: | 2020-06-30 |
| 公开(公告)号: | CN111795700A | 公开(公告)日: | 2020-10-20 |
| 发明(设计)人: | 蒋焕煜;陈词;马保建;娄明照;陆金科 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G01C21/20 | 分类号: | G01C21/20;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 无人 强化 学习 训练 环境 构建 方法 及其 系统 | ||
本发明公开了一种无人车强化学习训练环境构建方法及其训练系统,属于机器人导航领域与机器人仿真平台领域。包括:构建真实场景与仿真场景数据集;数据集增强;图像域转换算法的训练与模型保存;建立仿真环境模型与强化学习算法的API接口。在仿真环境中训练时,无人车模型上的摄像头采集观测到的仿真环境图像,经过图像域转换网络,转变为模拟的真实场景图片,作为状态输入强化学习网络,经过决策输出动作指令,发布给仿真端的无人车模型。在实际应用时,无人车摄像头采集现实中的真实场景图片,由于强化学习算法在训练时的输入的模拟真实场景图片与现实真实场景图片非常相似,因此训练好的算法可以直接迁移或者微调之后迁移至真实场景当中。
技术领域
本发明涉及机器人导航领域与机器人仿真平台领域,具体地说是一种无人车强化学习训练环境构建方法及其训练系统。
背景技术
机器人导航即为令其从初始位置到达目标位置,并且在此过程中不与障碍物发生碰撞。传统的机器人导航都是基于地图的。若环境模型(地图)事先已知,则为全局路径规划问题,该方法对机器人系统的计算能力要求较低,并且可以找到最优解。若环境模型事先未知或仅局部可知,则需要机器人在运动过程中,通过固定于其上的激光雷达或者摄像头等传感器感知周围环境,并对周围环境进行实时建模与校正,这种方式称为局部路径规划问题。局部路径规划对机器人系统的计算能力要求较高,并且由于缺乏全局信息,因此规划路径可能不是最优的,甚至可能找不到完整路径。
无地图导航指不依赖于先验地图信息进行搜索导航任务。对于该问题,相关研究者提出了Bug2算法,但是该算法只是基于人为设定规则,路径不优并且没有认知过程。对于包括人在内的大部分动物来讲,只需要知道目标的大致方位便可以穿过障碍物到达目标点。受此启发,相关研究者将强化学习方法引入路径规划问题,该方法能够模仿人的思维方式,智能体运动过程中的每一步动作都会得到环境给予的奖惩,通过不断的探索得到一条累计回报值最高的路径,有效地进行无地图导航。
由于强化学习的训练过程需要大量试错,试错过程中的错误运动指令可能会导致机器人撞到障碍物,因此直接用真实机器人进行训练并不可行,训练过程需要在仿真环境中实现。若直接采用仿真环境中的数据对强化学习算法进行训练,由于仿真环境与现实场景存在差异,训练好的算法直接迁移到现实场景中进行应用会导致算法失效,严重的话可能会导致无人车撞到障碍物,造成财产损失。
发明内容
为了解决现有技术中在仿真环境训练好的强化学习策略难以直接迁移至真实环境应用的缺陷,本发明提供一种无人车强化学习训练环境构建方法及其训练系统,利用图像域转化算法,将训练环境中的图片转换为模拟的真实场景中的图片,将其作为状态输入强化学习算法,进而得到无人车每一步动作决策。在真实场景应用时,由于真实场景图片与训练过程中输入的模拟真实场景图片具有较大相似性,因此在仿真环境中训练好的强化学习网络可以直接迁移或者经过微调之后迁移至真实场景中。
为了达到本发明的目的,本发明采取如下技术方案:
一种无人车强化学习训练环境构建方法,其特征在于,包含以下步骤:
步骤1:在真实无人车应用场景中,使用真实无人车的真实车载摄像头采集真实场景图片作为真实域数据集;
步骤2:根据采集到的真实域数据集,建立仿真环境模型以及仿真无人车模型行驶的场景,通过仿真无人车模型的仿真车载摄像头采集仿真环境图片作为仿真域数据集;
步骤3:对步骤1获得的真实域数据集和步骤2获得的仿真域数据集进行数据增强;
步骤4:建立CycleGAN网络,将增强后的真实域数据集和增强后的仿真域数据集分别作为CycleGAN网络中两个生成器的输入,对CycleGAN网络进行训练,在训练过程中,每训练一个阶段,保存一次模型,将损失值最小的模型作为最终的CycleGAN模型,存入.ckpt文件中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010619969.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:终端设备
- 下一篇:一种加载表单组件的方法及装置





