[发明专利]一种游戏策略计算方法、装置、系统及可读存储介质有效
申请号: | 201910716808.2 | 申请日: | 2019-08-05 |
公开(公告)号: | CN110302539B | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 刘全;吴金金;陈松 | 申请(专利权)人: | 苏州大学 |
主分类号: | A63F13/67 | 分类号: | A63F13/67;G06N20/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘志红 |
地址: | 215104 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 游戏 策略 计算方法 装置 系统 可读 存储 介质 | ||
本发明公开了一种游戏策略计算方法、装置、系统及计算机可读存储介质,该方法包括:预先采用多个历史游戏样本图像,建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型;采用游戏策略深度双Q网络模型对目标游戏的多个图像进行分析,得到最优评估网络参数;依据最优评估网络参数计算出与目标游戏中每个情节中的每个状态分别对应的各个目标动作值;依据与每个情节中的每个状态分别对应的各个目标动作值得到与目标游戏对应的游戏策略,本发明在使用过程中能够得出最优的游戏策略,有助于提升用户的游戏体验。
技术领域
本发明实施例涉及计算机技术领域,特别是涉及一种策略计算方法、装置、系统及计算机可读存储介质。
背景技术
深度强化学习是机器学习领域中一个新的研究热点,它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并通过端对端的方式学习从原始输入到动作输出的一个映射。在许多基于视觉感知的大规模决策任务中,深度强化学习方法已经取得突破性的进展。
目前,在游戏策略学习中,常用的网络模型为深度Q网络模型,深度Q网络模型在处理需要感知高维输入数据的决策控制任务中性能良好,然而深度Q网络模型存在着高估动作值使Agent性能变差的问题,使通过该网络模型确定出的游戏策略不是最优策略,影响玩家体验效果。
鉴于此,如何得到最优游戏策略,提升玩家体验成为本领域技术人员目前需要解决的问题。
发明内容
本发明实施例的目的是提供一种游戏策略计算方法、装置、系统及计算机可读存储介质,在使用过程中能够得出最优的游戏策略,有助于提升用户的游戏体验。
为解决上述技术问题,本发明实施例提供了一种游戏策略计算方法,包括:
预先采用多个历史游戏样本图像,建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型;
采用所述游戏策略深度双Q网络模型对目标游戏的多个图像进行分析,得到最优评估网络参数;
依据所述最优评估网络参数计算出与所述目标游戏中每个情节中的每个状态分别对应的各个目标动作值;
依据与所述每个情节中的每个状态分别对应的各个所述目标动作值得到与所述目标游戏对应的游戏策略。
可选的,所述预先采用多个历史游戏样本图像,建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型的过程为:
S200:依据多个历史游戏样本图像,获取相应的各个情节、与每个所述情节分别对应的各个状态以及与每个所述状态分别对应的各个动作;
S210:初始化评估网络参数θ0、目标网络参数θ-0和经验池D;
S220:对第m个情节初始化相应的初始状态sm0,其中,m=[1,M],M为情节总数;
S230:在所述第m个情节经过第t个时间步后的当前状态smt下,根据ε-greedy策略选择并执行动作amt,进入与第t+1个时间步对应的状态sm(t+1)和立即奖赏rm(t+1),其中,t=[0,T],T为时间步总数;
S240:获取转移样本(smt,amt,rmt,sm(t+1)),并将所述转移样本(smt,amt,rmt,sm(t+1))存入至所述经验池D中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910716808.2/2.html,转载请声明来源钻瓜专利网。