[发明专利]一种基于最大置信度上界的交替深度Q网络方法在审
申请号: | 202110858279.7 | 申请日: | 2021-07-28 |
公开(公告)号: | CN113627589A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 谭晓阳;吴卿源 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 向文 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 最大 置信 上界 交替 深度 网络 方法 | ||
1.一种基于最大置信度上界的交替深度Q网络方法,其特征在于,包括如下步骤:
S1:初始化k个各自独立的深度Q网络公共历史经验回放池B,网络选择次数Ni;
S2:初始化环境状态s0;
S3:根据Q-UCB策略选择Q网络;
S4:根据步骤S3获取的Q网络,选择并执行动作,获得新环境状态st+1和奖励rt;
S5:将步骤S4获取的信息存储进公共历史经验回放池中;
S6:更新网络选择次数;
S7:从公共历史经验回放池中独立随机采样更新深度Q网络;
S8:重复步骤S2~S7直到网络收敛。
2.根据权利要求1所述的一种基于最大置信度上界的交替深度Q网络方法,其特征在于,所述步骤S3具体为:
计算每个网络的Q-UCB值,选择Q-UCB值最大的Q网络。
3.根据权利要求2所述的一种基于最大置信度上界的交替深度Q网络方法,其特征在于,所述Q-UCB值的计算方法为:
其中,为网络的最优状态动作价值,为Qi的历史选择次数比,代表了该网络的不确定性。
4.根据权利要求1所述的一种基于最大置信度上界的交替深度Q网络方法,其特征在于,所述步骤S4中执行的动作具体为:
at=argmaxa Qi(st,a)。
其中st为在时间步t时的智能体状态,a为在时间步t时的智能体能够采取的动作。
5.根据权利要求4所述的一种基于最大置信度上界的交替深度Q网络方法,其特征在于,所述步骤S5中获取的信息包括(st,at,rt,st+1)。
6.根据权利要求1所述的一种基于最大置信度上界的交替深度Q网络方法,其特征在于,所述步骤S7中采用自动微分技术对深度Q网络进行更新,具体为:
为对网络参数θ进行梯度下降更新。
其中,为目标值,Q(s,a|θ-)为参数固定为θ-的目标Q网络,其初始化参数与策略Q网络参数一致,每过一段时间就会将策略Q网络的参数赋予目标Q网络,θ-←θ。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110858279.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:显示模组和移动终端
- 下一篇:SDP测试环境脚本的生成方法、装置和电子设备