[发明专利]FPS游戏的AI模型训练方法、装置、系统和设备在审
申请号: | 202110697611.6 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113521746A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 刘舟;徐键滨;吴梓辉;徐雅;王理平 | 申请(专利权)人: | 广州三七极耀网络科技有限公司 |
主分类号: | A63F13/67 | 分类号: | A63F13/67;A63F13/837;G06N20/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 陈志明 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | fps 游戏 ai 模型 训练 方法 装置 系统 设备 | ||
1.一种FPS游戏的AI模型训练方法,其特征在于,包括:
获取样本数据;其中,所述样本数据包括虚拟角色的游戏状态数据和实际奖励;
将所述游戏状态数据输入到所述FPS游戏的AI模型中,以生成所述虚拟角色的预测奖励;
根据所述预测奖励和实际奖励计算所述FPS游戏的AI模型的损失函数;其中,所述实际奖励通过预设的奖励机制计算得到;所述奖励机制包括:计算所述虚拟角色在采取动作后的当前时间步所处的位置与预设目标中心点的目标距离,根据所述目标距离计算实际奖励;所述目标中心点为所述虚拟角色在前两个时间步时所处位置所组成的圆的圆心;
根据所述损失函数对所述FPS游戏的AI模型进行优化,直至所述损失函数收敛。
2.如权利要求1所述的FPS游戏的AI模型训练方法,其特征在于,所述游戏状态数据包括:所述虚拟角色在当前时间歩的第一状态信息、在当前时间歩的第一动作信息以及在下一时间歩的第二状态信息,所述FPS游戏的AI模型包括第一网络和第二网络;则,将所述游戏状态数据输入到所述FPS游戏的AI模型中,以生成所述虚拟角色的预测奖励,包括:
将所述第一状态信息和所述第一动作信息输入到所述第一网络中,得到所述虚拟角色在当前时间步的第一状态动作价值;
将所述第二状态信息输入到所述第二网络中,得到第二动作信息;
将所述第二状态信息和第二动作信息输入到所述第一网络中,得到所述虚拟角色在下一时间步的第二状态动作价值;
计算所述第一状态动作价值和所述第二状态动作价值的价值差值作为所述预测奖励。
3.如权利要求2所述的FPS游戏的AI模型训练方法,其特征在于,根据所述预测奖励和实际奖励计算所述FPS游戏的AI模型的损失函数,包括:
根据所述预测奖励和所述实际奖励计算第一网络的损失函数;
获取所述第一网络的预测值计算所述第二网络的损失函数。
4.如权利要求1所述的FPS游戏的AI模型训练方法,其特征在于,根据所述目标距离计算实际奖励,包括:
当所述目标距离大于预设的距离阈值时,给予正向奖励;
当所述目标距离小于或等于所述距离阈值时,给予负向奖励。
5.如权利要求1所述的FPS游戏的AI模型训练方法,其特征在于,所述奖励机制还包括:
当检测到所述虚拟角色的操作状态为常规操作时,给予正向奖励;
当检测到所述虚拟角色的操作状态为非常规操作时,给予负向奖励;
其中,所述常规操作包括:朝着无障碍物的地方移动;所述非常规操作包括以下中的至少一种:未看到敌人时使用技能、在周围无障碍物时跳跃、在保持不动时跳跃、朝着存在障碍物的地方移动、在超过预设的第一数量帧后保持不动。
6.如权利要求1所述的FPS游戏的AI模型训练方法,其特征在于,所述奖励机制还包括:
当检测到所述虚拟角色的敌人的生命状态为死亡时,给予正向奖励;
当检测到所述虚拟角色的生命状态为死亡时,给予负向奖励。
7.如权利要求1所述的FPS游戏的AI模型训练方法,其特征在于,所述奖励机制还包括:
当检测到所述虚拟角色的视野信息为在预设的第二数量帧内看到敌人时,给予正向奖励;
当检测到所述虚拟角色的视野信息为在所述第二数量帧内未看到敌人时,给予负向奖励。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州三七极耀网络科技有限公司,未经广州三七极耀网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110697611.6/1.html,转载请声明来源钻瓜专利网。