首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种多智能体行动策略自演进生成方法有效

申请号：	202110609397.4	申请日：	2021-06-01
公开（公告）号：	CN113255893B	公开（公告）日：	2022-07-05
发明（设计）人：	王玥;庄星;尹昊;刘劲涛;李柯绪	申请（专利权）人：	北京理工大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	北京理工大学专利中心 11120	代理人：	高会允
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种智能行动策略演进生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多智能体行动策略自演进生成方法，其特征在于，包括如下步骤：

步骤1：初始化公共神经网络，所述公共神经网络包含演员网络和评论家网络，设置两个全局参数分别θ和w，其中演员网络参数为θ'，评论家网络参数为w'；

设置全局迭代次数T，全局最大迭代次数T_MAX；

单次线程的单次迭代中的时间序列最大长度t_MAX，所述公共神经网络的输入为状态特征和动作，输出为行动策略；状态特征隶属于状态特征集S，动作隶属于动作集A，行动策略隶属于策略集π(a/s)；其中a代表当前行动策略对应动作，s代表当前的状态；熵系数为c；衰变因子为γ；

步骤2：设置当前线程的单次迭代中的时间节点t，t的初始值为1；设置当前线程中演员网络参数θ'和评论家网络参数w'的梯度值dθ'和dw'初值均为0；

步骤3：将初始化的公共网络参数赋值给当前的单次线程中的演员网络参数和评论家网络参数，即θ'＝θ，w'＝w；

步骤4：初始化状态特征集S；

步骤5：基于部分设定规则以及智能体的当前状态特征s^t，根据策略集π(a/s)，智能体做出当前策略的动作a^t；

步骤6：计算当前时间节点执行完动作a^t后获得的回报值r^t；更新时间节点t，即t自增1，更新智能体的状态特征为s^t+1；

步骤7：若t＞t_MAX，则转向步骤8，否则返回执行步骤5；

步骤8:计算当前时间序列内最后一个时间节点的t的状态奖励值Q(s^t,t)

步骤9：更新时间节点t+1的状态奖励值Q(s^t,t+1)＝W·r^t+γQ(s^t,t)；

其中W为单步动作的回报值的权重系数，W取值为0-1之间；

更新当前线程中演员网络参数的梯度值为

dθ'+▽_θ'logπ_θ'(s^t,a^t)(Q(s^t,t)-V(s^t，t))+c▽_θ'H(π(s^t,θ'))；

其中，▽_θ'为梯度算子，即计算θ'的梯度值；H(π(s^t,θ'))为策略π(a^t/s^t)熵值；V(s^t,t)为在状态特征s^t、时间序列t时由评论家网络的价值函数计算得到的评论家价值；

更新当前线程中评论家网络参数的梯度值为

步骤10：更新公共神经网络的两个全局参数：θ减小αdθ'，w减小βdw'；其中α为演员网络参数步长；β为评论家网络参数步长；

步骤11：T自增1；如果T＞T_MAX,则公共神经网络训练完成，输出公共神经网络的两个全局参数参数θ,w,否则返回步骤3；

步骤12：公共神经网络训练完成后，形成策略生成模型，面对新的空战环境变化，将所述新的空战环境的状态特征和动作输入至所述策略生成模型，输出行动策略。

2.如权利要求1所述的行动策略自演进生成方法，其特征在于，所述特征状态集S的向量空间包括以下量化后的数据：环境态势信息、智能体从传感器获取的数据、智能体能力图谱、按功能域划分的任务策略规划序列、智能体自身行动状态。

3.如权利要求1所述的行动策略自演进生成方法，其特征在于，所述动作集包含智能体的基本行为动作。

4.如权利要求1所述的多智能体行动策略自演进生成方法，其特征在于，所述步骤8中，Q(s^t,t)的计算方法如下：

5.如权利要求1所述的多智能体行动策略自演进生成方法，其特征在于，所述单步动作的回报值的权重系数W的取值，将通过设定阈值将时间序列分为前后两段，当t处于前半段时W的取值大于t处于后半段时W的取值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110609397.4/1.html，转载请声明来源钻瓜专利网。

上一篇：多画面的显示方法和装置、存储介质及电子设备
下一篇：基于无人机的船舶净空高度检测方法、系统、设备及介质

同类专利

专利分类

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top