[发明专利]一种基于深度强化学习的自动寻路方法及寻路小车设备在审
申请号: | 202010577779.9 | 申请日: | 2020-06-23 |
公开(公告)号: | CN111881742A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 毛震;耿霞;杨治;陆虎 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08;G06F17/11 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212013 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 自动 方法 小车 设备 | ||
本发明涉及深度强化学习技术领域,具体涉及一种基于深度强化学习的方法与自动寻路小车设备,包括车体、摄像机、智能舵机、智能电机、电源,智能舵机用于控制车体前两个车轮的转弯角度,摄像机通过开发板MIPI接口与车体的开发板相连接,摄像机用于读取环境的图像数据。本发明不同于传统的路径规划方法,采用神经网络的方法实现寻路可以面对更加复杂和多元的环境信息,具有很强的鲁棒性。
技术领域
本发明涉及深度强化学习技术领域,更具体地说,涉及一种基于深度强化学习的方法与自动寻路小车设备。
背景技术
目前的自动寻路小车有使用红外线、激光、超声波侦测的方式感知环境,但这些传统的感知设备无法对环境信息进行一个全面的获取,在面对复杂的环境的时候无法做到有效的寻路。
随着机器学习技术的发展,机器对图像的识别越来越准确,如果使用摄像头获取周围的信息,利用神经网络识别图像数据,从而进行路径判断,那就可以很好的在识别周围环境基础上实现自动寻路,这样能够处理更加复杂的环境数据。
现代机器学习技术的的发展离不开硬件设备的发展,随着计算机性能的大大提升,一个小的GPU就能处理图像数据,可以将GPU搭载到小车上,处理摄像机传来的图像数据以及超声波接收器传来的数据,执行相应的算法,让小车完成自动寻路任务。
发明内容
为了解决现有技术中存在的复杂环境中无法有效寻路的问题,本发明提出了一种基于深度强化学习的自动寻路小车设备,包括车体400、摄像机404、智能舵机410、智能电机407、电源408;所述车体400内置有开发板、底部设有4个车轮,所述前两个车轮为一组,连接智能舵机410,后两个车轮为一组,连接智能电机407;所述智能舵机410安装在车体400底部,用于控制车体400前两个车轮的转弯角度;所述智能电机407安装在车体 400的底部,用于提供小车动力;所述摄像机404在车体400正前方,通过开发板MIPI接口402与车体400上的开发板相连接,摄像机404用于读取环境的图像数据;所述电源408 设置在智能电机407的一侧。
进一步地,上述开发板为Jetson-nano开发板,开发板内装有ubuntu操作系统;开发板内置有电源接口401、开发板MIPI连接口402、网线接口405、USB接口403,开发板通过USB接口403连接智能舵机410。
本发明还提出了一种基于深度强化学习的自动寻路方法,包括以下步骤:
1)小车在运动之前先预置目的地图像;
2)启动小车,在行驶时通过摄像机获取环境图像,将当前获取的环境图像和目的地图像进行相似度对比;
3)用两个共享权值的卷积神经网络计算当前图像和目标图像的相似度,通过相似度阈值判断小车是否达到目的地,超过相似度阈值则训练停止;未达到相似度阈值则继续行驶并获取新的环境图像,优化卷积神经网络;
4)完成自动寻路。
进一步地,上述用两个共享权值的卷积神经网络计算当前图像和目标图像的相似度包括:
建立两个共享权值的卷积神经网络Channel Network、Chanel Network将当前图像和目标图像输出为两个向量,计算两个向量的相似度,比值越接近1,图像相似度越高,具体计算公式如下:
其中X、Y为输出的两个向量,其中Cov(X,Y)为X,Y向量的协方差,EX为X向量的期望值, EY为Y向量的期望值,DX为X向量方差,DY为Y向量的方差。
进一步地,上述优化卷积神经网络或自动寻路小车的训练过程包括以下具体步骤:
3.1)建立并初始化Action网络、Value网络,其中Action网络的权值参数用θ表示,Value网络的参数用w表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010577779.9/2.html,转载请声明来源钻瓜专利网。