[发明专利]训练调度模型的方法、装置、实现协同驾驶的方法及装置有效
申请号: | 202210187529.3 | 申请日: | 2022-02-28 |
公开(公告)号: | CN114566045B | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 李力;张嘉玮;常成;彭心宇 | 申请(专利权)人: | 清华大学 |
主分类号: | G08G1/01 | 分类号: | G08G1/01;G06F18/214 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 蒋冬梅;栗若木 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 调度 模型 方法 装置 实现 协同 驾驶 | ||
1.一种训练调度模型的方法,包括:
待训练的调度模型对输入的每一辆待通过无信号交叉口的第一车辆的样本车辆状态信息进行嵌入处理,获得各第一车辆相应的高维状态向量;其中,所述高维状态向量的维度为预设维度;
对获得的高维状态向量进行处理,获得每一辆第一车辆的关联关系信息;其中,所述关联关系信息包括每一辆第一车辆的:高维状态向量和该第一车辆与其他第一车辆的冲突和耦合关系信息,其他第一车辆为该第一车辆自身以外的其他车辆;
根据获得的关联关系信息确定第一车辆的通行顺序信息;
根据获得的通行顺序信息计算所有待通过无信号交叉口的第一车辆均通过无信号交叉口的延迟总和;
根据计算出的延迟总和确定待训练的调度模型的参数。
2.根据权利要求1所述的方法,其特征在于,所述对获得的高维状态向量进行处理,包括:
对获得的高维状态向量通过预设的第一循环神经网络进行处理。
3.根据权利要求1所述的方法,其特征在于,所述根据获得的关联关系信息确定第一车辆的通行顺序信息,包括:
将所述关联关系信息输入至预设的第二循环神经网络,通过所述第二循环神经网络训练获得所述第一车辆的通行顺序信息。
4.根据权利要求1所述的方法,其特征在于,所述样本车辆状态信息包括所述第一车辆的以下一项或任意组合信息:
位置、优先级、速度、转向和路线。
5.根据权利要求1所述的方法,其特征在于,所述根据获得的通行顺序信息计算所有待通过无信号交叉口的第一车辆均通过无信号交叉口的延迟总和,包括通过以下目标函数计算所述延迟总和:
;
其中,表示所述待通过无信号交叉口的第一车辆i按照所述通行顺序信息通过所述无信号交叉口时的延迟,N表示所述待通过无信号交叉口的第一车辆的数目,J表示所述延迟总和。
6.根据权利要求1~5任一项所述的方法,其特征在于,所述根据计算出的延迟总和确定待训练的调度模型的参数,包括:
通过策略梯度调整所述调度模型的参数,以使根据参数调整后的调度模型计算出的延迟总和收敛;
所述调度模型计算出的延迟总和收敛时,保持所述调度模型的参数不变。
7.一种实现协同驾驶的方法,包括:
接收路测设备实时获取的待通过无信号交叉口的第二车辆的车辆实时状态信息;
将接收到的车辆实时状态信息输入预设的调度模型,获得第二车辆的通行顺序信息;
根据获得的第二车辆的通行顺序信息对第二车辆进行行驶控制;
其中,通过如权利要求1~6中任一项所述的训练调度模型的方法训练的所述调度模型。
8.一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~6中任一项所述的训练调度模型的方法,或如权利要求7所述的实现协同驾驶的方法。
9.一种终端,包括:存储器和处理器,所述存储器中保存有计算机程序;其中,
处理器被配置为执行存储器中的计算机程序;
所述计算机程序被所述处理器执行时实现如权利要求1~6中任一项所述的训练调度模型的方法,或如权利要求7所述的实现协同驾驶的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210187529.3/1.html,转载请声明来源钻瓜专利网。