[发明专利]无人车的自主避障方法及装置、电子设备、可读存储介质在审
申请号: | 201911236281.X | 申请日: | 2019-12-05 |
公开(公告)号: | CN110956148A | 公开(公告)日: | 2020-04-03 |
发明(设计)人: | 宗文豪 | 申请(专利权)人: | 上海舵敏智能科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 杨用玲 |
地址: | 201804 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 无人 自主 方法 装置 电子设备 可读 存储 介质 | ||
1.一种无人车的自主避障方法,其特征在于,包括:
获取当前状态信息,所述当前状态信息包括当前的环境状态信息和无人车的当前状态;
根据所述当前状态信息和历史状态信息,经训练好的避障网络产生当前动作信息;
执行所述当前动作信息,重复上述过程,获取下一状态信息,根据下一状态信息更新所述当前动作信息,如此循环,直至所述无人车到达目的地;
其中,所述避障网络采用Actor-Critic结构,包括动作生成网络和策略评价网络;
所述动作生成网络,用于根据所述当前状态信息和所述历史状态信息,经第一循环神经网络处理,得到融合状态信息;根据所述融合状态信息预测当前动作信息;
所述策略评价网络,用于获取在所述当前状态信息下执行所述当前动作信息得到的回报值;根据所述回报值、所述融合状态信息和所述当前动作信息,经所述第二循环神经网络处理,得到所述当前动作信息的预测评价;
所述动作生成网络根据所述预测评价,调整后续的动作产生策略。
2.根据权利要求1所述的无人车的自主避障方法,其特征在于,所述的根据所述回报值、所述融合状态信息和所述当前动作信息,经所述第二循环神经网络处理,得到所述当前动作信息的预测评价,包括:
根据所述回报值、所述融合状态信息和所述当前动作信息,得到状态动作融合信息;
根据所述状态动作融合信息,经第二全连接神经网络处理,得到预评价信息;
将所述状态动作融合信息和所述预评价信息经过一步注意力处理,得到权重矫正的状态动作融合信息;
根据所述权重矫正的状态动作融合信息和历史动作信息的预测评价,经所述第二循环神经网络处理,得到所述当前动作信息的预测评价。
3.根据权利要求2所述的无人车的自主避障方法,其特征在于,所述的将所述状态动作融合信息和所述预评价信息经过一步注意力处理,得到权重矫正的状态动作融合信息,具体包括:
计算所述状态动作融合信息和所述预评价信息的相关性,得到相关性系数;
对所述相关性信息进行归一化处理,得到对应的权重因子;
用所述权重因子调整所述状态动作融合信息,得到权重矫正的状态动作融合信息。
4.根据权利要求3所述的无人车的自主避障方法,其特征在于:
根据以下公式计算所述状态动作融合信息和所述预评价信息的相关性:
其中,为t时刻的状态动作融合信息,为j时刻的预评价信息,w1和w2为系数,表示j时刻的预评价信息与t时刻的状态动作融合信息的相关性系数;
根据以下公式对所述相关性信息进行归一化处理,得到对应的权重因子
根据以下公式得到权重矫正的状态动作融合信息
5.根据权利要求1所述的无人车的自主避障方法,其特征在于,所述的在所述当前状态信息下执行所述当前动作信息得到的回报值,具体包括:
若在所述当前状态信息下执行所述动作信息,不会发生碰撞,则回报值为所述无人车在单位时间行驶的距离;
若在所述当前状态信息下执行所述动作信息,会发生碰撞,则回报值为预设惩罚值。
6.根据权利要求1所述的无人车的自主避障方法,其特征在于,所述的训练所述避障网络包括:
通过环境与无人车之间的交互信息训练避障网络,通过最小化损失函数更新网络参数;所述损失函数包括新旧策略的价值增量、以及新旧策略之间的KL散度;当新旧策略之间的KL散度小于预设门限,且基于新策略的的累计回报值高于基于旧策略的累计回报值时,用新策略更新旧策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海舵敏智能科技有限公司,未经上海舵敏智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911236281.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:收卷设备中收卷机构的辅助支撑装置
- 下一篇:一种农机具加工用圆周钻孔装置