[发明专利]一种基于深度强化学习的空间搜索方法及设备在审

申请号：	202011616392.6	申请日：	2020-12-30
公开（公告）号：	CN112633591A	公开（公告）日：	2021-04-09
发明（设计）人：	潘泽文;许轶博;范宏伟;李佳斌	申请（专利权）人：	成都艾特能电气科技有限责任公司
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06N3/08
代理公司：	成都九鼎天元知识产权代理有限公司 51214	代理人：	胡川
地址：	610000 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习空间搜索方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于深度强化学习的空间搜索方法及设备，方法包括获取空间数据信息，建立实际空间搜索模型；制定空间搜索路径规划结果的评价函数；根据所述空间搜索模型对路径规划进行网络模型的构建；采用强化学习方法迭代训练神经网络获取损失函数；通过反向传播训练神经网络并作为空间搜索路径规划决策模型输出。本发明通过根据实际需求构建空间搜索模型，进而建立评价函数作为机器学习目标，通过强化学习迭代训练使网络模型收敛至实际收益，适用于决策大规模的空间搜索路径规划问题。

技术领域

本发明涉及机器学习和空间搜索技术领域，特别涉及一种基于深度强化学习的空间搜索方法及设备。

背景技术

基于路径优化的组合优化问题是运筹学中的经典问题，更有着广泛的实际应用场景，如旅行商问题、邮差问题、车辆路径问题等。针对此类NP-hard问题，主要有三种传统方法求解：精确算法，近似算法及启发式算法。常见的精确算法主要有分支限界法、动态规划法，然而精确解法受限于时间复杂度，只适用于小规模问题；近似算法包括贪婪算法、局部搜索算法、松弛算法等，提供了在多项式时间内的近似解。然而近似算法不能保证所得解的质量，最坏情况往往不尽人意；启发式算法包括遗传算法、粒子群算法等，能够相对快速得到解，然而启发式方法缺少理论支持，同时这类算法的设计需要掌握大量专业知识和反复试验，更依赖于研究者的专业水与经验。

随着大数据时代的到来以及计算能力的不断提高，基于大数据驱动的深度学习技术得到了飞速发展。深度学习的方法由于具有自动学习能力和在大数据集上较好的拟合特性，近年来越来越受到人们的青睐。深度学习在很多应用领域如图像分类、目标检测(典型应用如人脸识别、行人识别、车辆识别等)、图像分割等都有着广泛的应用。同时深度学习在解决组合优化问题上的能力也越来越受到人们重视，如AlphaGo已经远远超越人类棋手。然而这些研究均关注在一些经典模拟问题的求解，对于基于现实状态及需求的空间搜索路径优化的实际问题缺乏相关的解决方案。

发明内容

为解决上述技术问题，本发明提供了一种基于深度强化学习的空间搜索方法及设备，该方法从实际问题出发,建立空间搜索路径规划收益评价函数作为机器学习目标，通过强化学习迭代训练提升模型预测预期收益的能力，最终得到基于预期收益最大的空间搜索路径规划策略。该方法能够适用于大规模的空间搜索路径规划问题，并且能够保证结果质量。

本发明提供了一种基于深度强化学习的空间搜索方法，具体技术方案如下：

S1：获取空间数据信息，建立实际空间搜索模型；

S2：根据建立的空间搜索模型中的参数制定空间搜索路径规划结果的评价函数；

S3：根据所述空间搜索模型，对路径规划的收益或对决策或对收益和决策共同建模；

获取当前时刻的空间搜索状态特征，并输入深度神经网络中，根据神经网络输出的决策或预期收益最高的行动进行下一步空间搜索更新轨迹；

S4：根据评价函数计算实际收益，采用强化学习方法迭代训练神经网络获取损失函数；

S5：通过反向传播训练神经网络，经过多次迭代，将训练收敛的神经网络作为空间搜索路径规划决策模型输出。

进一步的，在步骤S1模型的构建中，对于欧式空间可通过多种神经网络模型对空间搜索路径优化收益或决策建模，例如通过卷积神经网络对欧式空间结构化信息进行收集挖掘或者利用循环神经网络对时间上前后状态之间的相互影响进行建模；

进一步的，所述评价函数根据现实需求进行制定，通过实际的空间参数计算时空覆盖效率，得到各时间段的空间搜索收益。

进一步的，在所述评价函数的制定过程中，根据实际空间参数的重要性，构建该参数的重要性权重并进行时空覆盖率的计算，得到结合空间参数重要性的评价函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载