[发明专利]一种游戏策略计算方法、装置、系统及可读存储介质有效
申请号: | 201910716808.2 | 申请日: | 2019-08-05 |
公开(公告)号: | CN110302539B | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 刘全;吴金金;陈松 | 申请(专利权)人: | 苏州大学 |
主分类号: | A63F13/67 | 分类号: | A63F13/67;G06N20/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘志红 |
地址: | 215104 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 游戏 策略 计算方法 装置 系统 可读 存储 介质 | ||
1.一种游戏策略计算方法,其特征在于,包括:
预先采用多个历史游戏样本图像,建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型;
采用所述游戏策略深度双Q网络模型对目标游戏的多个图像进行分析,得到最优评估网络参数;
依据所述最优评估网络参数计算出与所述目标游戏中每个情节中的每个状态分别对应的各个目标动作值;
依据与所述每个情节中的每个状态分别对应的各个所述目标动作值得到与所述目标游戏对应的游戏策略。
2.根据权利要求1所述的游戏策略计算方法,其特征在于,所述预先采用多个历史游戏样本图像,建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型的过程为:
S200:依据多个历史游戏样本图像,获取相应的各个情节、与每个所述情节分别对应的各个状态以及与每个所述状态分别对应的各个动作;
S210:初始化评估网络参数θ0、目标网络参数θ-0和经验池D;
S220:对第m个情节初始化相应的初始状态sm0,其中,m=[1,M],M为情节总数;
S230:在所述第m个情节经过第t个时间步后的当前状态smt下,根据ε-greedy策略选择并执行动作amt,进入与第t+1个时间步对应的状态sm(t+1)和立即奖赏rm(t+1),其中,t=[0,T],T为时间步总数;
S240:获取转移样本(smt,amt,rmt,sm(t+1)),并将所述转移样本(smt,amt,rmt,sm(t+1))存入至所述经验池D中;
S250:判断所述经验池中当前的转移样本总数是否达到第一预设值,若是,则从所述经验池中抽取预设数量个目标转移样本;若否,则判断所述t是否等于T,若是,则将所述m更新为m+1,返回执行S220;若否,则将所述t更新为t+1,返回执行S230;
S260:采用第j个目标转移样本计算出目标网络在相应状态下的最大动作值和最小动作值的权重,并依据所述第j个目标转移样本及所述权重对当前的评估网络参数进行更新,得到本次更新后的评估网络参数;
S270:判断所述j是否等于J,其中,J为所预设数量的数值,若是,则将所述更新后的评估网络参数作为最新的评估网络参数;若否,则将所述j更新为j+1,并返回执行S260;
S280:判断当前经过的时间步总数是否达到第二预设值,若是,则将当前最新的评估网络参数值赋值给到当前的目标网络参数,以对所述目标网络参数进行更新;
S290:判断m是否等于M,若是,则结束,获取所述最新的评估网络参数,并将所述最新的评估网络参数作为最优评估网络参数;若否,则将所述m更新为m+1,返回执行S220。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910716808.2/1.html,转载请声明来源钻瓜专利网。