[发明专利]一种基于虚拟遗憾最小化算法的德州扑克AI训练方法在审
| 申请号: | 202110048898.X | 申请日: | 2021-01-14 |
| 公开(公告)号: | CN112691383A | 公开(公告)日: | 2021-04-23 |
| 发明(设计)人: | 张轶飞;程帆;张冬梅 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | A63F13/67 | 分类号: | A63F13/67;G06N5/02;G06N5/04;G06N3/08;G06N3/04 |
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 虚拟 遗憾 最小化 算法 德州 扑克 ai 训练 方法 | ||
1.一种基于虚拟遗憾最小化算法的德州扑克AI训练方法,其特征在于,包括以下步骤:
1)获取私人手牌信息和游戏展示信息,进行游戏特征抽象;
2)基于玩家历史游戏日志,建立针对该玩家的策略预测神经网络模型;
3)采用虚拟遗憾最小化算法以玩家的策略预测神经网络模型为对手训练并得到AI行为策略;
4)采用训练得到的AI行为策略与游戏玩家进行实时对局,并再结束后进行比赛记录。
2.根据权利要求1所述的一种基于虚拟遗憾最小化算法的德州扑克AI训练方法,其特征在于,所述的步骤1)具体包括以下步骤:
11)根据游戏实时界面获取AI自己手牌牌型以及场上展示出来的公共牌牌型信息;
12)利用德州扑克抽象状态空间,将此时AI自己手牌牌型和场上展示出来的公共牌牌型信息通过9-Buckering策略映射得到对应牌力值;
13)构建策略预测神经网络模型,以得到的牌力值以及此时的游戏界面信息作为神经网络模型的输入,以当前游戏信息的抽象特征为输出,所述的游戏界面信息具体包括此时AI自己手牌牌型、场上展示出来的公共牌牌型信息以及本局截止当前所有玩家的下注信息。
3.根据权利要求1所述的一种基于虚拟遗憾最小化算法的德州扑克AI训练方法,其特征在于,所述的步骤13)中,策略预测神经网络模型为一神经网络模型,其结构具体为依次连接的一个卷积核大小为3*3的卷积层、一个最大池化层、一个卷积核大小为5*5的卷积层以及一个最大池化层,将得到的矩阵拉长并与AI牌力值结合为一个向量作为两层全连接层的输入,其中,全连接层的节点数分别为1326和169。
4.根据权利要求1所述的一种基于虚拟遗憾最小化算法的德州扑克AI训练方法,其特征在于,所述的步骤2)具体包括以下步骤:
21)通过玩家游戏ID获取该玩家过往的对局记录;
22)获取该玩家ID对应的已训练好的策略预测神经网络模型,该策略预测神经网络模型框架选取于现有的基于Q-learning或策略梯度强化学习算法中的神经网络模型;
23)利用策略预测神经网络模型对玩家每步行为进行预测,并在对局结束后将实际行为作为新的训练数据对神经网络模型进行参数微调。
5.根据权利要求1所述的一种基于虚拟遗憾最小化算法的德州扑克AI训练方法,其特征在于,所述的步骤3)中,在虚拟遗憾最小化算法中,博弈树非叶子节点h处的虚拟价值定义为:
其中,Z为博弈树中所有叶子节点的集合,h为博弈树中的非叶子节点,μi(z)为玩家i在叶子节点z的效用值,δ为当前玩家所使用的策略,为玩家i执行策略δ时基于其他玩家各自的策略使得博弈过程到达节点h的概率,πδ(h,z)为玩家i依照策略δ从h节点到达叶子结点z的概率。
6.根据权利要求5所述的一种基于虚拟遗憾最小化算法的德州扑克AI训练方法,其特征在于,在虚拟遗憾最小化算法中,在非叶子节点h不采取动作a的虚拟遗憾值r(h,a)的表达式为:
r(h,a)=vi(δI→a,h)-vi(δ,h)
其中,vi(δI→a,h)为玩家i基于策略δ下在博弈树非叶子节点h处采取行动a所得到的虚拟遗憾价值。
7.根据权利要求6所述的一种基于虚拟遗憾最小化算法的德州扑克AI训练方法,其特征在于,在信息分割集I不采取动作a的虚拟遗憾值r(I,a)的表达式为:
其中,I为信息分割集,I中的每个分量Ii表示玩家i决策节点的一个集合,即对于非叶子节点h,Ii={h∈H|P(h)=i},H为所有非叶子节点集合,P(h)=i表示在h节点行动的玩家是。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110048898.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据显示方法、装置及设备
- 下一篇:一种筛选优质客户提升风控效率的方法





