[发明专利]一种基于虚拟遗憾最小化算法的德州扑克AI训练方法在审

申请号：	202110048898.X	申请日：	2021-01-14
公开（公告）号：	CN112691383A	公开（公告）日：	2021-04-23
发明（设计）人：	张轶飞;程帆;张冬梅	申请（专利权）人：	上海交通大学
主分类号：	A63F13/67	分类号：	A63F13/67;G06N5/02;G06N5/04;G06N3/08;G06N3/04
代理公司：	上海科盛知识产权代理有限公司 31225	代理人：	杨宏泰
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于虚拟遗憾最小化算法德州扑克 ai 训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于虚拟遗憾最小化算法的德州扑克AI训练方法，包括以下步骤：1)获取私人手牌信息和游戏展示信息，进行游戏特征抽象；2)基于玩家历史游戏日志，建立针对该玩家的策略预测神经网络模型；3)采用虚拟遗憾最小化算法以玩家的策略预测神经网络模型为对手训练并得到AI行为策略；4)采用训练得到的AI行为策略与游戏玩家进行实时对局，并再结束后进行比赛记录。与现有技术相比，本发明通过引入游戏信息抽象嵌入，将遗憾匹配机制和局部最小遗憾值计算方法整合到遗憾最小化算法中，具有提高计算效率和实际对局胜率的优点。

技术领域

本发明涉及人工智能中的机器博弈领域，尤其是涉及一种基于虚拟遗憾最小化算法的德州扑克AI训练方法。

背景技术

机器博弈一直以来都是人工智能领域非常重要的研究问题，是检验人工智能发展水平的一个重要手段。近年来随着人工智能，尤其是深度学习的发展，诸多传统机器博弈问题被解决，尤其是以AlphaGo为代表的结合深度强化学习和蒙特卡洛博弈树搜索的人工智能算法在完全信息的机器博弈问题上取得了令人瞩目的成果，而非完全信息机器博弈仍存在诸多未解决的问题，而扑克作为一类复杂且典型的非完全信息机器博弈问题，研究实现高效的扑克AI算法在理论和应用上都具有重要意义。

遗憾最小化算法是目前解决正则博弈非常有效的算法，遗憾最小化算法通过AI与自身，AI与人类的博弈对局过程中吸取过往决策失误的经验教训，通过计算博弈树整体最小遗憾不断迭代优化，最终训练AI得出最好的博弈策略，期望AI未来所作出的决策，具有最小的期望动作遗憾。传统的遗憾最小化算法在扩展式的博弈问题中，由于游戏状态空间呈指数增长，计算如此规模的博弈树的整体最小遗憾需要耗费巨大的计算资源，这并不切合实际。于此同时，博弈树上有些博弈分支在实际情况中出现的概率十分小，计算这些博弈分支上的动作遗憾值实际是浪费计算资源的行为，因此在以德州扑克为例的非完全信息扩展式博弈问题中，该算法十分低效且效果有限。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于虚拟遗憾最小化算法的德州扑克AI训练方法。

本发明的目的可以通过以下技术方案来实现：

一种基于虚拟遗憾最小化算法的德州扑克AI训练方法，包括以下步骤：

1)获取私人手牌信息和游戏展示信息，进行游戏特征抽象；

2)基于玩家历史游戏日志，建立针对该玩家的策略预测神经网络模型；

3)采用虚拟遗憾最小化算法以玩家的策略预测神经网络模型为对手训练并得到AI行为策略；

4)采用训练得到的AI行为策略与游戏玩家进行实时对局，并再结束后进行比赛记录。

所述的步骤1)具体包括以下步骤：

11)根据游戏实时界面获取AI自己手牌牌型以及场上展示出来的公共牌牌型信息；

12)利用德州扑克抽象状态空间，将此时AI自己手牌牌型和场上展示出来的公共牌牌型信息通过9-Buckering策略映射得到对应牌力值；

13)构建策略预测神经网络模型，以得到的牌力值以及此时的游戏界面信息作为神经网络模型的输入，以当前游戏信息的抽象特征为输出，所述的游戏界面信息具体包括此时AI自己手牌牌型、场上展示出来的公共牌牌型信息以及本局截止当前所有玩家的下注信息。