[发明专利]山区铁路线路优化的深度强化学习方法在审
申请号: | 202210338385.7 | 申请日: | 2022-04-01 |
公开(公告)号: | CN114819286A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 蔡长青;汤铭柯;贾羽彤;彭俊源;甘淞宇 | 申请(专利权)人: | 广州大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q10/06;G06Q10/10;G06Q50/30 |
代理公司: | 广州高炬知识产权代理有限公司 44376 | 代理人: | 刘志敏 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 山区 铁路 线路 优化 深度 强化 学习方法 | ||
本发明提出了一种山区铁路线路优化的深度强化学习方法,属于通信技术领域。本发明从组合优化的角度对提出了一种基于深度强化学习的山区铁路线路优化新框架,称为深度确定性政策梯度,重新设计了目标函数、环境、状态和动作,同时考虑各种对齐约束,深度确定性政策梯度模型生成铁路线形解决方案,无需预先确定交叉口或HPI的垂直点数量,也无需首先找到初始走廊。本发明深度确定性政策梯度模型生成铁路线形解决方案,无需预先确定交叉口或HPI的垂直点数量,也无需首先找到初始走廊,提高了运算效率。
技术领域
本发明属于无线通信技术领域,尤其涉及一种山区铁路线路优化深度强化学习方法。
背景技术
最近,中南大学的研究人员在考虑建设成本、地震风险和地质灾害的情况下,提出了山 区铁路线路的优化方法。一些学者在2019年结合改进的距离变换和遗传算法从各种有前途的 替代品中获得精确的比对。随后,这些学者在2019年创造性地将逐步和混合粒子群算法与遗 传算法相结合,用于山区铁路路径规划,采用逐步粒子群算法满足各种铁路约束条件,降低 综合成本。上述研究能很好地处理铁路建设成本和多种约束条件,并从环境和地质灾害两方 面考虑了其影响。一些学者考虑了地震风险和三种类型的地质灾害,即山体滑坡、泥石流和 落石,以设计更安全的铁路路线。
发明内容
本发明的目的提出了一种山区铁路线路优化的深度强化学习方法,基于深度强化学习的 山区铁路线路优化新框架,称为深度确定性政策梯度,其中我们重新设计了基于深度强化学 习算法的目标函数、环境、状态和动作,同时考虑了各种对齐约束。深度确定性政策梯度模 型生成铁路线形解决方案,无需预先确定交叉口或HPI的垂直点数量,也无需首先找到初始 走廊。为深度确定性政策梯度方法特别强调优化过程中的“策略”,就像人类一样。
为了达到上述目的,在本发明的第一个方面,提供了一种山区铁路线路优化的深度强化 学习方法,其特征在于,其包括如下步骤:
S1:将优化下的铁路路线表示为有一个N个状态过渡步骤的事件,其中状态的第i步骤 结尾的空间被定义为S;
S2:在Si和Si+1之间所采取的操作Ai,动作Ai从A表示的动作空间中选择;
S3:根据Si,Ai与Si+1的关系,计算下一个状态Si+1;
S4:通过采取Ai操作,可以将代理的状态从Si转换为Si+1,Ri表示在从Si到Si+1的状态 过渡过程,评估其单位建设成本和其他项目的奖励;
S5:被添加到奖励中函数,其中表示生存状态,以确保代理能够在满足所有约束的同 时找到端点。
进一步地,所述S1中,第i步骤结尾的空间被定义为Si如下表示:
S={[xi,yi,hi,xi-1,yi-1,hi-1,xi-2,yi-2,hi-2]T|
xi∈[0,W],yi∈[0,H]}
其中,i=1,2,...,N;xi和yi为水平坐标;i=1,2,...,N;χi和yi为水平坐标,hi为第 i步骤结束时代理的高度,W和H分别为水平坐标中目标区域的宽度和高度的上界。
进一步地,当i=1时,所述代理位于铁路路线的起点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210338385.7/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理