[发明专利]一种游戏策略计算方法、装置、系统及可读存储介质有效

申请号：	201910716808.2	申请日：	2019-08-05
公开（公告）号：	CN110302539B	公开（公告）日：	2022-12-23
发明（设计）人：	刘全;吴金金;陈松	申请（专利权）人：	苏州大学
主分类号：	A63F13/67	分类号：	A63F13/67;G06N20/00
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	刘志红
地址：	215104 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种游戏策略计算方法装置系统可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种游戏策略计算方法、装置、系统及计算机可读存储介质，该方法包括：预先采用多个历史游戏样本图像，建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型；采用游戏策略深度双Q网络模型对目标游戏的多个图像进行分析，得到最优评估网络参数；依据最优评估网络参数计算出与目标游戏中每个情节中的每个状态分别对应的各个目标动作值；依据与每个情节中的每个状态分别对应的各个目标动作值得到与目标游戏对应的游戏策略，本发明在使用过程中能够得出最优的游戏策略，有助于提升用户的游戏体验。

技术领域

本发明实施例涉及计算机技术领域，特别是涉及一种策略计算方法、装置、系统及计算机可读存储介质。

背景技术

深度强化学习是机器学习领域中一个新的研究热点，它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合，并通过端对端的方式学习从原始输入到动作输出的一个映射。在许多基于视觉感知的大规模决策任务中，深度强化学习方法已经取得突破性的进展。

目前，在游戏策略学习中，常用的网络模型为深度Q网络模型，深度Q网络模型在处理需要感知高维输入数据的决策控制任务中性能良好，然而深度Q网络模型存在着高估动作值使Agent性能变差的问题，使通过该网络模型确定出的游戏策略不是最优策略，影响玩家体验效果。

鉴于此，如何得到最优游戏策略，提升玩家体验成为本领域技术人员目前需要解决的问题。

发明内容

本发明实施例的目的是提供一种游戏策略计算方法、装置、系统及计算机可读存储介质，在使用过程中能够得出最优的游戏策略，有助于提升用户的游戏体验。

为解决上述技术问题，本发明实施例提供了一种游戏策略计算方法，包括：

预先采用多个历史游戏样本图像，建立基于评估网络最大动作值和最小动作值权重的游戏策略深度双Q网络模型；

采用所述游戏策略深度双Q网络模型对目标游戏的多个图像进行分析，得到最优评估网络参数；

依据所述最优评估网络参数计算出与所述目标游戏中每个情节中的每个状态分别对应的各个目标动作值；