[发明专利]游戏模型的数据处理方法、装置、电子设备及存储介质有效

申请号：	202110228510.4	申请日：	2021-03-02
公开（公告）号：	CN113159313B	公开（公告）日：	2022-09-09
发明（设计）人：	查道琛;马文晔;谢静如	申请（专利权）人：	北京达佳互联信息技术有限公司
主分类号：	G06N3/08	分类号：	G06N3/08;A63F13/79;G06N3/04
代理公司：	华进联合专利商标代理有限公司 44224	代理人：	黄丽霞
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	游戏模型数据处理方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开关于一种游戏模型的数据处理方法、装置、电子设备及存储介质，其通过获取设置在远端的游戏模拟器基于第一出牌模型的神经网络自我博弈产生的各角色对象的对局数据，并将各角色对象的对局数据输入与第一出牌模型的神经网络参数相同的第二出牌模型的神经网络，进而采用强化学习算法训练该第二出牌模型的神经网络，从而得到神经网络的参数更新后的目标出牌模型。由于本公开通过远端的游戏模拟器进行自我博弈以产生相应的对局数据作为训练数据，从而不需要依赖人类角色的数据和经验，通过强化学习算法训练神经网络，使得训练后的目标出牌模型能够提高出牌的准确性，且提高了模型的训练速度。

技术领域

本公开涉及计算机技术领域，尤其涉及一种游戏模型的数据处理方法、装置、电子设备及存储介质。

背景技术

随着电子、网络等技术的发展，网络游戏作为人们生活中的一种娱乐形式，已经成为人们生活中不可缺少的部分。例如斗地主、麻将等。而在斗地主游戏的过程中，出牌是最重要的一环，玩家出牌的好坏直接决定游戏中的胜负。而游戏中机器人出牌的好坏将会影响游戏中人类玩家的游戏体验。给人类玩家匹配上水平相当的机器人可以给玩家有趣的游戏体验。因此，出牌策略是斗地主智能决策中至关重要的部分。

相关技术中，一般采用基于监督学习的出牌策略，即根据线上产生的大量人类玩家的出牌数据，通过监督学习算法去模仿人类出牌。然而，由于其依赖于人类玩家的出牌数据，因此，性能很大程度上取决于数据的质量，从而导致训练出的策略很难超过人类水平，使得训练出的机器人对出牌控制的准确性较低。

发明内容

本公开提供一种游戏模型的数据处理方法、装置、电子设备及存储介质，以至少解决相关技术中机器人出牌准确性低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种游戏模型的数据处理方法，所述方法包括：

获取设置在远端的游戏模拟器自我博弈产生的对局数据，所述对局数据包括所述游戏模拟器基于第一出牌模型的神经网络自我博弈时各角色对象的状态数据、与所述状态数据对应的目标行为以及对局结果；

基于所述对局结果，将所述各角色对象的状态数据和与所述状态数据对应的目标行为输入与所述第一出牌模型的神经网络参数相同的第二出牌模型的神经网络，所述第一出牌模型的神经网络通过同步第二出牌模型的神经网络参数得到；

采用强化学习算法训练所述第二出牌模型的神经网络，得到神经网络的参数更新后的目标出牌模型。

在其中一个实施例中，所述获取设置在远端的游戏模拟器自我博弈产生的对局数据，包括：获取设置在远端的所述游戏模拟器基于第一出牌模型的神经网络自我博弈时对应目标角色对象的状态数据以及与所述状态数据对应的所有候选行为；基于游戏策略和状态数据，获取与所述状态数据对应的每一个候选行为的决策数据；根据每一个候选行为的决策数据确定与所述状态数据对应的目标行为；获取执行所述目标行为后的执行结果，直到游戏结束时获取所述游戏的对局结果。

在其中一个实施例中，在所述获取设置在远端的游戏模拟器自我博弈产生的对局数据之后，所述方法还包括：基于游戏中的不同角色对象，将所述对局数据存储在与各角色对象对应的缓冲区中；所述采用强化学习算法训练所述第二出牌模型的神经网络，得到神经网络的参数更新后的目标出牌模型，包括：基于各角色对象对应的缓冲区中的对局数据，采用强化学习算法并行训练各角色对象对应的第二出牌模型的神经网络，得到与各角色对象对应的神经网络的参数更新后的目标出牌模型。

在其中一个实施例中，所述基于各角色对象对应的缓冲区中的对局数据，采用强化学习算法并行训练各角色对象对应的第二出牌模型的神经网络，得到与各角色对象对应的神经网络的参数更新后的目标出牌模型，包括：当存在数据量达到设定值的缓冲区时，则基于所述数据量达到设定值的缓冲区中的对局数据，采用强化学习算法训练与所述缓冲区的角色对象对应的第二出牌模型的神经网络，得到对应角色对象的神经网络的参数更新后的目标出牌模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司，未经北京达佳互联信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110228510.4/2.html，转载请声明来源钻瓜专利网。

上一篇：一种定量测定单晶硅中替位碳的方法
下一篇：一种方便安装的新能源汽车轮胎喷淋降尘装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]游戏模型的数据处理方法、装置、电子设备及存储介质有效

专利文献下载