[发明专利]一种非完备信息的博弈策略生成方法在审
| 申请号: | 201510491027.X | 申请日: | 2015-08-11 |
| 公开(公告)号: | CN105426969A | 公开(公告)日: | 2016-03-23 |
| 发明(设计)人: | 李翔;吴朝晖;姜晓红;包友军;陈英芝 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06N7/00 | 分类号: | G06N7/00;G06Q10/06 |
| 代理公司: | 杭州宇信知识产权代理事务所(普通合伙) 33231 | 代理人: | 张宇娟 |
| 地址: | 310027 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 完备 信息 博弈 策略 生成 方法 | ||
技术领域
本发明涉及一种完备信息博弈下的策略生成方法,特别涉及具有完美回忆特征的非完备信息博弈的策略生成方法。
背景技术
博弈大致可以分为两种:完备信息下的博弈和非完备信息下的博弈。前者指双方都可以完全获得当前的信息,例如在围棋、象棋和五子棋的对弈过程中,双方对棋盘上的所有棋子分布、对手的动作都可以完全地获得;后者指双方无法获得全盘的信息,例如在大量扑克游戏中(德州扑克、桥牌等),任何玩家都无法在游戏过程中直接观看其它玩家的手牌。博弈问题的求解是人工智能领域的重要问题。
在完备信息的博弈中,极大极小值算法获得了巨大成功。该算法以当前状态作为根节点构造博弈树,并从当前状态出发,遍历往后若干(k)步内的所有情况。假设对手也是以最优的策略进行博弈,则算法可以得出一条从当前节点(根节点)出发到k步之后的一条路径。算法将这条路径的第一步选作最优策略进行博弈。该算法的最主要局限在于时间复杂度为O(xk),是一个指数形式。其中x是每一个状态下,可能的决策数量,k为算法往后推测算的步数。为了降低时间复杂度以及实际等待时间,出现了α-β剪枝、搜索顺序优化、直接进行状态查找匹配、利用对手思考时间计算等优化方法。这些方法有效地提高了算法的运行效率,尤其在一些特殊情况下,例如:1)设计了开局库的象棋博弈程序,可以在开局若干步内直接检索事先存储的开局库并给出最优策略(比如是象棋大师实战的,或者是程序长时间计算得出的着法);2)经过了搜索顺序优化和α-β剪枝优化的象棋算法,在对方将军时优先搜索应将的着法(应将的着法一般不多),则可以显著加快得到最优解的速度。
在非完备信息的博弈中,由于无法得知全部的信息,也无法推测我们在进行一步行动之后,对手会以怎样的动作和我们进行对抗。这使得原有的优化算法难以直接应用在非完备信息的博弈中。因此出现了利用机器学习技术学习职业选手的对局的方法。该方法的缺点在于数据量的需求过大。部分博弈游戏的特殊性,并没有过多的文本化的记录信息,甚至不存在职业选手。另一种方法是进行纳什均衡点的搜索。影响该方法普遍使用的最大障碍在于理论非常艰深,实现过于复杂。
发明内容
本发明针对非完备信息的博弈中所存在的对手信息无法确定、决策期望值无法计算的问题,提供了一种根据对手行动推测对手信息,从而计算最终决策期望值的方法,并作出最终决策的方法。
为实现上述目的,本发明可采取下述技术方案:
一种非完备信息博弈的策略生成方法,所述非完备信息的博弈特指具有以下特征的博弈:博弈过程中,对手的行为对自己而言可见;博弈过程中,对手的行为对自己而言可以完美回忆;对手的行为依赖其信息,即对手的行为可以体现对手的信息;包括以下步骤:
步骤一,对手行为建模:在博弈进行之前,根据该博弈的特定规则,对对手的每一种行为建立模型,所述模型用于将对手的行为与对手信息的概率分布进行映射;
步骤二,行为收集与信息预测:在博弈过程中,记录对手每一次行为的信息,并将这些信息与步骤一中的模型进行匹配和映射,得到对手信息的概率分布;
步骤三,胜率计算:根据步骤二中映射得到的概率分布,通过蒙特卡洛方法进行模拟得到自身的胜率;
步骤四,得到行动:根据步骤三中得到的胜率,通过计算期望值得到相应的行动。
进一步的,所述步骤一中的模型以对手的行为作为输入,以对手信息的概率分布作为输出;
具体的,假设对手的信息有k种可能性,记为{a1,a2,…,ak},对于每一种可能性ai,i=1,2,…,k,首先根据对手行为与ai的匹配程度得到一个匹配值mi,然后计算每一种可能性的概率值pi,
pi=mi/(m1+m1+…+mn)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510491027.X/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





