[发明专利]一种基于深度强化学习的多智能体导航算法有效
申请号: | 202110533403.2 | 申请日: | 2021-05-17 |
公开(公告)号: | CN113218400B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 张春美;白维松;郭红戈;邵杨;郑康智;张京 | 申请(专利权)人: | 太原科技大学 |
主分类号: | G01C21/20 | 分类号: | G01C21/20;G06Q10/04;G06N3/00;G06N3/04;G06N3/08 |
代理公司: | 太原中正和专利代理事务所(普通合伙) 14116 | 代理人: | 焦进宇 |
地址: | 030024 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 智能 导航 算法 | ||
1.一种基于深度强化学习的多智能体导航算法,其特征在于:
一、建模
将智能体速度和角速度均进行限定,智能体当前时刻的速度信息vt定义为:
vt=f(ct,gt,vt-1) (1)
ct为环境信息,gt为目标信息,vt-1为上一时刻的速度;
将扫描仪得到的图像信息进行特征提取,通过卷积神经网络训练得到低维环境特征xt,xt定义为:
xt=g(ct) (2)
vt=f'(xt,gt,vt-1) (3)
二、重要性采样:
x~p时,称为重要性权重,f(x)的数学期望看作的数学期望,从p分布中采样数据变成从q分布中采样数据;
Ex~p[f(x)]代表从分布p中取样本x送入f(x)并求期望:
Varx~p[f(x)]=Ex~p[f(x)2]-(Ex~p[f(x)])2 (5)
目标函数为:
at为t时刻的动作,st为t时刻的状态,Aθ'为衡量在状态st下采取动作at回报的优势函数,θ'采集的样本输入到θ里面进行训练;
ASPPO期望奖励的最终目标函数为:
手动设置β值,KL为阈值;
三、加入奖惩函数
奖惩函数的具体定义为:
rt=rdecision+rcondition+rtime (9)
其中,
rtime0 (12)
rt为总得分,rdecision为智能体主动选择算法得到的奖励分数,rcondition为碰撞分数,rtime为消耗时间扣除的分数,r0为选择A*算法得到的奖励分数,rnegative为智能体发生碰撞扣除的分数,rpositive为到达目标点得到的奖励分数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原科技大学,未经太原科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110533403.2/1.html,转载请声明来源钻瓜专利网。