[发明专利]一种游戏策略计算方法、装置、系统及可读存储介质有效

申请号：	201910716808.2	申请日：	2019-08-05
公开（公告）号：	CN110302539B	公开（公告）日：	2022-12-23
发明（设计）人：	刘全;吴金金;陈松	申请（专利权）人：	苏州大学
主分类号：	A63F13/67	分类号：	A63F13/67;G06N20/00
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	刘志红
地址：	215104 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种游戏策略计算方法装置系统可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种游戏策略计算方法，其特征在于，包括：

预先采用多个历史游戏样本图像，建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型；

采用所述游戏策略深度双Q网络模型对目标游戏的多个图像进行分析，得到最优评估网络参数；

依据所述最优评估网络参数计算出与所述目标游戏中每个情节中的每个状态分别对应的各个目标动作值；

依据与所述每个情节中的每个状态分别对应的各个所述目标动作值得到与所述目标游戏对应的游戏策略。

2.根据权利要求1所述的游戏策略计算方法，其特征在于，所述预先采用多个历史游戏样本图像，建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型的过程为：

S200：依据多个历史游戏样本图像，获取相应的各个情节、与每个所述情节分别对应的各个状态以及与每个所述状态分别对应的各个动作；

S210：初始化评估网络参数θ₀、目标网络参数θ^-₀和经验池D；

S220：对第m个情节初始化相应的初始状态s_m0，其中，m＝[1,M]，M为情节总数；

S230：在所述第m个情节经过第t个时间步后的当前状态s_mt下，根据ε-greedy策略选择并执行动作a_mt，进入与第t+1个时间步对应的状态s_m(t+1)和立即奖赏r_m(t+1)，其中，t＝[0,T]，T为时间步总数；

S240：获取转移样本(s_mt,a_mt,r_mt,s_m(t+1))，并将所述转移样本(s_mt,a_mt,r_mt,s_m(t+1))存入至所述经验池D中；

S250：判断所述经验池中当前的转移样本总数是否达到第一预设值，若是，则从所述经验池中抽取预设数量个目标转移样本；若否，则判断所述t是否等于T，若是，则将所述m更新为m+1，返回执行S220；若否，则将所述t更新为t+1，返回执行S230；

S260：采用第j个目标转移样本计算出目标网络在相应状态下的最大动作值和最小动作值的权重，并依据所述第j个目标转移样本及所述权重对当前的评估网络参数进行更新，得到本次更新后的评估网络参数；

S270：判断所述j是否等于J，其中，J为所预设数量的数值，若是，则将所述更新后的评估网络参数作为最新的评估网络参数；若否，则将所述j更新为j+1，并返回执行S260；

S280：判断当前经过的时间步总数是否达到第二预设值，若是，则将当前最新的评估网络参数值赋值给到当前的目标网络参数，以对所述目标网络参数进行更新；

S290：判断m是否等于M，若是，则结束，获取所述最新的评估网络参数，并将所述最新的评估网络参数作为最优评估网络参数；若否，则将所述m更新为m+1，返回执行S220。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州大学，未经苏州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910716808.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载