[发明专利]一种基于虚拟遗憾最小化算法的德州扑克AI训练方法在审
| 申请号: | 202110048898.X | 申请日: | 2021-01-14 |
| 公开(公告)号: | CN112691383A | 公开(公告)日: | 2021-04-23 |
| 发明(设计)人: | 张轶飞;程帆;张冬梅 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | A63F13/67 | 分类号: | A63F13/67;G06N5/02;G06N5/04;G06N3/08;G06N3/04 |
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 虚拟 遗憾 最小化 算法 德州 扑克 ai 训练 方法 | ||
本发明涉及一种基于虚拟遗憾最小化算法的德州扑克AI训练方法,包括以下步骤:1)获取私人手牌信息和游戏展示信息,进行游戏特征抽象;2)基于玩家历史游戏日志,建立针对该玩家的策略预测神经网络模型;3)采用虚拟遗憾最小化算法以玩家的策略预测神经网络模型为对手训练并得到AI行为策略;4)采用训练得到的AI行为策略与游戏玩家进行实时对局,并再结束后进行比赛记录。与现有技术相比,本发明通过引入游戏信息抽象嵌入,将遗憾匹配机制和局部最小遗憾值计算方法整合到遗憾最小化算法中,具有提高计算效率和实际对局胜率的优点。
技术领域
本发明涉及人工智能中的机器博弈领域,尤其是涉及一种基于虚拟遗憾最小化算法的德州扑克AI训练方法。
背景技术
机器博弈一直以来都是人工智能领域非常重要的研究问题,是检验人工智能发展水平的一个重要手段。近年来随着人工智能,尤其是深度学习的发展,诸多传统机器博弈问题被解决,尤其是以AlphaGo为代表的结合深度强化学习和蒙特卡洛博弈树搜索的人工智能算法在完全信息的机器博弈问题上取得了令人瞩目的成果,而非完全信息机器博弈仍存在诸多未解决的问题,而扑克作为一类复杂且典型的非完全信息机器博弈问题,研究实现高效的扑克AI算法在理论和应用上都具有重要意义。
遗憾最小化算法是目前解决正则博弈非常有效的算法,遗憾最小化算法通过AI与自身,AI与人类的博弈对局过程中吸取过往决策失误的经验教训,通过计算博弈树整体最小遗憾不断迭代优化,最终训练AI得出最好的博弈策略,期望AI未来所作出的决策,具有最小的期望动作遗憾。传统的遗憾最小化算法在扩展式的博弈问题中,由于游戏状态空间呈指数增长,计算如此规模的博弈树的整体最小遗憾需要耗费巨大的计算资源,这并不切合实际。于此同时,博弈树上有些博弈分支在实际情况中出现的概率十分小,计算这些博弈分支上的动作遗憾值实际是浪费计算资源的行为,因此在以德州扑克为例的非完全信息扩展式博弈问题中,该算法十分低效且效果有限。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于虚拟遗憾最小化算法的德州扑克AI训练方法。
本发明的目的可以通过以下技术方案来实现:
一种基于虚拟遗憾最小化算法的德州扑克AI训练方法,包括以下步骤:
1)获取私人手牌信息和游戏展示信息,进行游戏特征抽象;
2)基于玩家历史游戏日志,建立针对该玩家的策略预测神经网络模型;
3)采用虚拟遗憾最小化算法以玩家的策略预测神经网络模型为对手训练并得到AI行为策略;
4)采用训练得到的AI行为策略与游戏玩家进行实时对局,并再结束后进行比赛记录。
所述的步骤1)具体包括以下步骤:
11)根据游戏实时界面获取AI自己手牌牌型以及场上展示出来的公共牌牌型信息;
12)利用德州扑克抽象状态空间,将此时AI自己手牌牌型和场上展示出来的公共牌牌型信息通过9-Buckering策略映射得到对应牌力值;
13)构建策略预测神经网络模型,以得到的牌力值以及此时的游戏界面信息作为神经网络模型的输入,以当前游戏信息的抽象特征为输出,所述的游戏界面信息具体包括此时AI自己手牌牌型、场上展示出来的公共牌牌型信息以及本局截止当前所有玩家的下注信息。
所述的步骤13)中,策略预测神经网络模型为一神经网络模型,其结构具体为依次连接的一个卷积核大小为3*3的卷积层、一个最大池化层、一个卷积核大小为5*5的卷积层以及一个最大池化层,将得到的矩阵拉长并与AI牌力值结合为一个向量作为两层全连接层的输入,其中,全连接层的节点数分别为1326和169。
所述的步骤2)具体包括以下步骤:
21)通过玩家游戏ID获取该玩家过往的对局记录;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110048898.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据显示方法、装置及设备
- 下一篇:一种筛选优质客户提升风控效率的方法





