[发明专利]游戏人工智能系统及其性能提升系统及方法有效

申请号：	201911389843.4	申请日：	2019-12-30
公开（公告）号：	CN111178541B	公开（公告）日：	2023-04-18
发明（设计）人：	王志伟;涂仕奎;徐雷	申请（专利权）人：	上海交通大学
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	上海恒慧知识产权代理事务所(特殊普通合伙) 31317	代理人：	刘翠
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	游戏人工智能系统及其性能提升方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种游戏人工智能系统的性能提升方法，其特征在于，包括：

S0：获取数据集作为游戏人工智能系统的输入数据，其中，s为多通道游戏数据，为S2中得到的最终优先度，z为游戏结束时游戏人工智能系统根据胜负返回的二值信息；

S1：对数据集记录的多通道游戏数据，使用深度并行计算框架计算节点优先度初始值和返回信息近似值；

S2：利用S1计算得到的节点优先度初始值形成树形结构，生成新的数据节点，并填入认知模块计算得到的节点优先度初始值作为数据节点信息，再将S1中得到的返回信息近似值填入数据节点，然后将数据节点信息回传，更新各个数据节点保存的信息，输出一个行动后验预测结果，即为最终优先度；

S3：对数据集记录的多通道游戏数据，使用深度并行计算框架计算多通道游戏数据权重比例；

S4：将数据集记录的优先度和S2中得到的最终优先度，结合S3中得到的权重比例，计算得到两种优先度的加权组合；

所述S1中，深度并行计算框架，包括L层残差模块和第L+1层特征调整模块，其中，多通道游戏数据经过L层残差模块的过程数据大小不变，用于对数据进行压缩操作和批归一化处理；所述第L+1层特征调整模块包括如下两部分：

- 第一部分，调整特征图尺寸后经过softmax函数计算输出节点初始优先度；

- 第二部分，调整多通道数据尺寸后经过tanh函数计算输出对返回信息的估计；

其中：

节点优先度初始值，即第L+1层特征调整模块第一部分计算输出的节点初始优先度，为一个362维数组，作为S2中的计算初始值；

返回信息近似值，即第L+1层特征调整模块第二部分计算输出的返回信息的估计，该估计是对游戏人工智能系统返回二值结果的近似值估计；

所述S3中，深度并行计算框架包括L层残差模块和第L+1层特征调整模块，其中，多通道游戏数据经过L层残差模块的过程数据大小不变，用于对数据进行压缩操作和批归一化处理；第L+1层特征调整模块调整多通道数据尺寸后经过sigmoid函数计算权重比例。

2.根据权利要求1所述的游戏人工智能系统的性能提升方法，其特征在于，所述S1，还包括如下步骤：所述深度并行计算框架基于数据集进行训练；其中：

深度并行计算框架通过定义更新机制来更新框架的参数，其中，所述更新机制如下所示：

式中，第一项是交叉熵机制，用于计算框架输出的节点优先度初始值与数据集记录的优先度之间的差异，是S2中得到的最终优先度，p是深度并行计算框架给出的节点优先度初始值；第二项是平方误差损失，用于计算框架输出的返回信息近似值与根据游戏胜负返回的二值信息之间的差异，z是游戏结束时系统根据胜负返回的二值信息，v是深度并行计算框架给出的返回信息近似值；第三项是L2正则项，用于缩小框架的规模，是深度并行计算框架的全部参数，c是用于L2控制正则项的系数；

所述更新机制所采用方法如下所示：

其中，是更新率，用于控制框架更新的幅度；是更新机制计算后对深度并行计算框架反馈的梯度信息，代表框架需要更新的方向。

3.根据权利要求1所述的游戏人工智能系统的性能提升方法，其特征在于，所述S2中，树形结构的数据节点间建立连接，其中每一个数据节点均用于存储如下信息：

- 节点优先度初始值，代表选择该数据节点的优先程度，由S1计算得到；

- 访问次数，代表该数据节点被访问过的次数；

- 平均结果信息，由S1计算得到的返回信息近似值累计平均值得来；

重复以下4个步骤：

- 选择：树形模拟采用最优优先原则，即每一层按高节点初始值、低访问次数、高动作值的原则访问子数据节点，最终到达的末端节点即为被选择的数据节点；

- 展开：根据S1中的计算，初始化末端节点下的所有合法节点，节点初始值初始化为S1中计算的节点优先度初始值，访问次数和平均返回信息近似值初始化为0；

- 评估：得到S1中对末端节点的返回信息近似值v；

- 回传：向上逐层更新数据节点信息，直至初始数据节点；具体地，访问次数自增1，平均返回信息近似值累加评估v后，取平均值；v是深度并行计算框架给出的返回信息近似值；

以上步骤重复多次后，利用每个子数据节点的访问次数除以所有子数据节点访问次数之和，计算选择每个行动的最终优先度。