[发明专利]智能体的控制方法及系统、计算机装置以及存储介质有效

申请号：	202010187746.3	申请日：	2020-03-17
公开（公告）号：	CN111514585B	公开（公告）日：	2022-02-11
发明（设计）人：	张崇洁;王同翰	申请（专利权）人：	南京知能科技有限公司
主分类号：	A63F13/55	分类号：	A63F13/55;A63F13/822;G06N3/04
代理公司：	上海巅石知识产权代理事务所(普通合伙) 31309	代理人：	王再朝
地址：	210023 江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	智能控制方法系统计算机装置以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开一种智能体的控制方法及系统、计算机装置以及存储介质。所述方法用于包含多个智能体通过各自的行为操作执行协同任务的系统，包括：以多个智能体中的一个智能体为目标智能体并获取其当前观测信息；在一角色控制机制下执行以下步骤：基于包含当前观测信息的输入信息集生成目标智能体的当前行为信息；按照所生成的当前行为信息控制目标智能体的当前行为操作，一段时间内的行为操作用于反映当前角色属性，当前角色属性是由角色控制机制生成的；基于目标智能体的包含新的观测信息的输入信息集重新执行上述生成步骤和控制步骤，以利用新的行为信息控制目标智能体执行协同任务中的新的行为操作。

技术领域

本申请涉及计算机数据处理领域，具体的涉及一种智能体的控制方法及系统、计算机装置以及存储介质。

背景技术

多智能体系统(multi-agent system，简称为MAS)是由在一个环境中交互的多个智能体组成的计算系统。在该系统中，每个智能体都有自己的目标和行为，但同时也与其他智能体进行交互和协作。

目前，在涉及多个智能体交互的场景中，例如多玩家的游戏场景，多个机器人的控制场景等等，强化学习的引入备受关注。随着多智能体强化学习(multi-agentreinforcement learning，简称为MARL)技术的不断发展，现有的应用于多智能体系统的强化学习技术在适应性和灵活度方面都有所提高，但是对于复杂任务，其仍存在效率低下的缺点。

因而，如何在多智能体系统中基于强化学习来提高学习效率成为多智能体强化学习中待解决的技术问题。

发明内容

鉴于以上所述相关技术的缺点，本申请的目的在于提供一种智能体的控制方法及系统、计算机装置以及存储介质，用以克服上述相关技术中存在的针对复杂的智能体任务而言学习效率低下的技术问题。

为实现上述目的及其他相关目的，本申请公开的第一方面提供一种智能体的控制方法，所述控制方法用于包含多个智能体通过各自的行为操作执行协同任务的系统，所述控制方法包括：以所述多个智能体中的一个智能体为目标智能体，并获取所述目标智能体的当前观测信息；以及在一角色控制机制下执行以下步骤：基于包含所述当前观测信息的输入信息集生成所述目标智能体的当前行为信息；按照所生成的当前行为信息控制所述目标智能体的当前行为操作，所述目标智能体的一段时间内的行为操作用于反映所述目标智能体的当前角色属性，所述当前角色属性是由所述角色控制机制生成的；以及基于所述目标智能体的包含新的观测信息的输入信息集重新执行上述生成步骤和控制步骤，以利用新的行为信息控制所述目标智能体执行所述协同任务中的新的行为操作。

在本申请的第一方面的某些实施方式中，所述输入信息集还包括所述目标智能体的轨迹信息。

在本申请的第一方面的某些实施方式中，所述生成所述目标智能体的当前行为信息的步骤包括：基于所述输入信息集进行角色生成处理以获得与所述当前角色属性对应的行为特征；以及依据所述行为特征生成所述目标智能体为执行所述协同任务的当前行为信息。

在本申请的第一方面的某些实施方式中，所述基于输入信息集进行角色生成处理以获得与所述当前角色属性对应的行为特征的步骤包括：利用角色编码器基于所述输入信息集生成所述当前角色属性；以及利用角色解码器将所述当前角色属性转换为所述行为特征。

在本申请的第一方面的某些实施方式中，所述角色编码器包括编码单元和采样单元；所述利用角色编码器基于所述输入信息集生成所述当前角色属性的步骤包括：所述编码单元用于基于所述输入信息集输出角色特征信息；以及所述采样单元用于对基于所述角色特征信息而得到的角色分布进行采样处理以得到所述当前角色属性。

在本申请的第一方面的某些实施方式中，所述角色控制机制基于所述目标智能体的当前观测信息、所述目标智能体的当前角色属性、以及所述目标智能体的轨迹信息而被优化，以使所述目标智能体所执行的后续行为操作能反映出比优化前具有更高识别性的角色属性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京知能科技有限公司，未经南京知能科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010187746.3/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

A 农业

A63 运动；游戏；娱乐活动
A63F 纸牌、棋盘或轮盘赌游戏；利用小型运动物体的室内游戏；其他类目不包含的游戏
A63F13-00 使用二维或多维电子显示器
A63F13-02 .附件
A63F13-08 .结构零件或布置，例如其他类目不包括的壳体、导线、连接件、操纵台
A63F13-10 .游戏过程的控制，例如开始、进行、结束
A63F13-12 .涉及若干游戏装置之间的相互作用，例如传送和分配系统
A63F13-04 ..用于命中显示器上的特殊区域，如具有光电探测装置的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]智能体的控制方法及系统、计算机装置以及存储介质有效

专利文献下载