[发明专利]动态优势函数建模方法、装置、存储介质及电子设备在审

申请号：	202110564559.7	申请日：	2021-05-24
公开（公告）号：	CN113392952A	公开（公告）日：	2021-09-14
发明（设计）人：	胡纪锋;陈贺昌;孙智孝;朴海音;詹光;常毅	申请（专利权）人：	吉林大学
主分类号：	G06N3/00	分类号：	G06N3/00;G06N20/00
代理公司：	北京恒博知识产权代理有限公司 11528	代理人：	张晓芳
地址：	130012 吉***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	动态优势函数建模方法装置存储介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种动态优势函数的建模方法，涉及深度强化学习领域。方法包括：针对静态优势函数的演员‑评论家模型中包括的静态优势函数添加权重因子，得到第一动态优势函数；基于长短期记忆网络模型对所述演员‑评论家模型中包括的原始策略网络进行动作延迟跟随和重构，得到第二动态优势函数；基于所述第一动态优势函数和所述第二动态优势函数构成所述动态优势函数。采用本申请实施例，可以解决现有的基于静态优势函数的演员‑评论家模型需要大量样本数据支撑训练，以及针对智能体的训练初期效果不理想、模型学习效率低、鲁棒性差的问题。

技术领域

本申请涉及深度强化学习领域，尤其涉及一种动态优势函数的建模方法、装置、存储介质及电子设备。

背景技术

随着科学技术的不断发展，人工智能正在多个领域展现出强劲的发展势头，越来越多的智能体开始出现在人们的视野当中，比如虚拟客服、智能音箱、游戏AI等，这些智能体能够适应环境并进行决策，而训练这些智能体可以使用深度强化学习(ReinforcementLearning,RL)的方法达到。深度强化学习可以归结为一个五元组表示的马尔可夫决策过程(Markov Decision Processes，MDP)，即(S，A，R，P，γ)，分别代表环境状态、动作、奖励、状态转移矩阵、累积奖励折扣因子。智能体从环境获取环境状态，并基于当前状态产生动作作用于环境以使环境产生下一步环境状态，同时接受环境反馈的收益。在与环境交互的过程中，智能体的目的是获取的长期受益最大化。

基于静态优势函数的演员-评论家模型是深度强化学习中被普遍采用来训练智能体的一种模型，优势函数的含义可以理解为，在状态s_i下，选择某一优势动作a_i,k获得的收益相对于在状态s_i下所有动作a_i,_j{j＝1,…,k,k+1,..n}产生的平均收益的优势程度。换而言之，优势函数是得到某一个随机变量相对这个随机变量均值的偏差的函数。

然而基于现有的基于静态优势函数的演员-评论家模型对智能体的训练，需要大量的样本数据支持，在某些情况下，智能体与环境交互会产生巨大的交互成本以及时间成本。例如，针对在汽车上实现自动驾驶功能的智能体，想要采集汽车与环境交互的样本数据无疑是非常耗时耗力以及成本很高的。而少量的样本数据，不仅会使训练后的智能体达不到预想效果，而且智能体的鲁棒性也较差。

发明内容

本申请实施例提供了一种动态优势函数建模方法、装置、存储介质及电子设备，可以解决现有的基于静态优势函数的演员-评论家模型需要大量样本数据支撑训练，以及针对智能体的训练初期效果不理想、模型学习效率低、鲁棒性差的问题，所述技术方案如下：

第一方面，本申请实施例提供了一种动态优势函数建模方法，所述方法包括：

针对静态优势函数的演员-评论家模型中包括的静态优势函数添加权重因子，得到第一动态优势函数；

基于长短期记忆网络模型对所述演员-评论家模型中包括的原始策略网络进行动作延迟跟随和重构，得到第二动态优势函数；

基于所述第一动态优势函数和所述第二动态优势函数构成所述动态优势函数。

第二方面，本申请实施例提供了一种动态优势函数的优化装置，所述装置包括：

第一动态优势函数模块，用于针对静态优势函数的演员-评论家模型中包括的静态优势函数添加权重因子，得到第一动态优势函数；

第二动态优势函数模块，用于基于长短期记忆网络模型对所述演员-评论家模型中包括的原始策略网络进行动作延迟跟随和重构，得到第二动态优势函数；

动态优势函数模块，基于所述第一动态优势函数和所述第二动态优势函数构成所述动态优势函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载