[发明专利]一种基于深度强化学习实现的装箱方法在审
| 申请号: | 202010545595.4 | 申请日: | 2020-06-16 |
| 公开(公告)号: | CN111695700A | 公开(公告)日: | 2020-09-22 |
| 发明(设计)人: | 吕长虹;张小锐;杨立光;王晓辉;来蕾 | 申请(专利权)人: | 华东师范大学 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;G06Q10/04;G06Q10/08 |
| 代理公司: | 上海愉腾专利代理事务所(普通合伙) 31306 | 代理人: | 唐海波 |
| 地址: | 200065 上*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 实现 装箱 方法 | ||
1.一种基于深度强化学习实现的装箱方法,其特征在于,所述装箱方法包括以下步骤:
获取需要装箱的区域和各矩形箱体信息;
根据区域和各矩形箱体信息通过深度强化学习返回装箱策略;
根据返回的装箱策略结合矩形带排样算法对各矩形箱体进行装箱。
2.根据权利要求1所述的基于深度强化学习实现的装箱方法,其特征在于,所述根据区域和各矩形箱体信息通过深度强化学习返回装箱策略具体可包括:
选择基于策略的强化学习方法作为强化学习算法;
使用深度神经网络模型Pointer Networks作为强化学习算法的策略函数,随机性策略作为策略函数的输出;
累计奖励的期望值作为目标函数;
策略函数Pointer Networks通过束搜索算法搜索装箱策略,返回装箱策略。
3.根据权利要求2所述的基于深度强化学习实现的装箱方法,其特征在于,所述根据区域和各矩形箱体信息通过深度强化学习返回装箱策略具体可包括:深度强化学习通过策略梯度算法计算目标函数的梯度值,并选择Adam优化算法更新Pointer Networks的模型参数。
4.根据权利要求2所述的基于深度强化学习实现的装箱方法,其特征在于,所述深度强化学习包括:将深度神经网络模型作为强化学习算法的智能体,将区域作为环境,区域内矩形箱体的布局作为状态,智能体持续地与环境交互,根据当前的状态选择行为,而环境会反馈给智能体新的状态和奖励。
5.根据权利要求4所述的基于深度强化学习实现的装箱方法,其特征在于,作为智能体的深度神经网络模型包括编码器、解码器和连接两者的中间状态向量,编码器将输入向量编码成固定长度的中间状态向量并传给解码器,解码器对中间状态向量进行分析解码并输出结果。
6.根据权利要求4所述的基于深度强化学习实现的装箱方法,其特征在于,所述深度强化学习的奖励函数可如下:
其中,假设矩形箱体数量为N,τ为智能体的决策过程对应的采样轨迹,s为环境反馈的状态,a为智能体对状态做出的行为,θ表示Pointer Networks的模型参数,为在当前模型参数θ下生成采样轨迹τ的总奖励值的期望值,则有采样轨迹τ的概率为,
7.根据权利要求6所述的基于深度强化学习实现的装箱方法,其特征在于,采取策略梯度算法对Pointer Networks的模型参数进行优化。
8.根据权利要求7之所述的基于深度强化学习实现的装箱方法,其特征在于,所述策略梯度算法的优化流程如下:
训练数据集S,迭代次数T,一次迭代所选取的样本数B;
初始化Pointer Networks模型参数θ,初始化偏移量b;
对于t=1~N,从训练数据集S中选取一次迭代所需样本si,i∈{1,…,B},通过pθ(·|θ)为每一个样本si,i∈{1,…,B}生成解决方案oi;
计算
更新模型参数更新偏移量b。
9.根据权利要求1至8之一所述的基于深度强化学习实现的装箱方法,其特征在于,所述矩形带排样算法为构造类启发式Bottom-Left-Fill算法。
10.根据权利要求9所述的基于深度强化学习实现的装箱方法,其特征在于,所述Bottom-Left-Fill算法按顺序依次放置矩形箱体,每个矩形箱体在初始阶段放置到区域的右上方,并使矩形箱体不断交替地向下向左移动,直至矩形箱体在当前所处位置不能继续移动。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010545595.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种按摩护腰的电竞座椅
- 下一篇:一种高品质肉牛养殖方法





