[发明专利]基于事后经验的信赖域策略优化方法、装置及相关设备在审

申请号：	202010713458.7	申请日：	2020-07-22
公开（公告）号：	CN112101563A	公开（公告）日：	2020-12-18
发明（设计）人：	兰旭光;张翰博;柏思特;郑南宁	申请（专利权）人：	西安交通大学
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	陈翠兰
地址：	710049 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于事后经验信赖策略优化方法装置相关设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于事后经验的信赖域策略优化方法、装置及相关设备，方法包括：S100，将经验数据中已到达的目标点作为虚拟目标点，生成虚拟的事后经验数据；S200，基于事后目标滤波算法，完成对虚拟目标的过滤，获取所对应的训练数据；S300，基于虚拟经验数据，通过加权重要性采样修正虚拟经验数据与原始经验数据的分布偏差；S400，基于加权重要性采样修正虚拟经验数据与原始经验数据的分布偏差，以此估计策略间KL散度值；S500，通过KL散度修正策略梯度方向，并通过最大KL散度步长计算更新策略步长。该方法以使智能体能够基于少量的交互数据和简单设计的奖励函数，能够对环境和任务完成有效的探索过程，并对行为策略进行高效的学习和更新。

技术领域

本发明属于机器学习智能机器人领域，具体涉及一种基于事后经验的信赖域策略优化方法、装置及相关设备。

背景技术

随着人工智能技术的迅速发展，通过智能化、自动化的信息处理过程，其在诸多行业中崭露头角。但目前人工智能领域主流的深度学习方法多依赖于大规模的人为标注数据，如何通过机器人或智能体与环境的自主交互获取数据并完成学习过程是人工智能领域的一大难点问题。强化学习作为人工智能领域的重要分支技术，能够帮助机器人完成在与环境的自主交互过程中，探索与学习。但强化学习目前面临着学习速度慢，奖励函数设计困难，探索效率低等诸多问题，因此难以在实际的复杂任务中得以应用。具体地，基于强化学习的智能体往往需要数千万或更多的交互数据才能获取可信的行为策略。此外，对于复杂任务，需要基于当前任务设计精致的奖励函数，完成对任务奖励的表征，以防止智能体学习到次优策略。

为此，如何设计一种高效的强化学习方法，能够在较少的交互数据的前提下，基于简单设计的奖励函数，通过自主探索，学习到有效策略，是目前强化学习所面临的突出问题。

发明内容

本发明的目的在于克服上述不足，提供一种基于事后经验的信赖域策略优化方法、装置及相关设备，该方法以使智能体能够基于少量的交互数据和简单设计的奖励函数，能够对环境和任务完成有效的探索过程，并对行为策略进行高效的学习和更新。

为了达到上述目的，本发明包括以下步骤：

一种基于事后经验的信赖域策略优化方法，包括以下步骤：

S100，通过使用目标条件下策略训练过程中所采集的机器人执行动作的经验数据，将经验数据中已到达的目标点作为虚拟目标点，生成虚拟的事后经验数据；

S200，基于事后目标滤波算法，完成对虚拟目标的过滤，获取与原始目标分布接近的事后目标所对应的训练数据；

S300，基于虚拟经验数据，通过加权重要性采样修正虚拟经验数据与原始经验数据的分布偏差，并以此估计目标函数值，并获取原始策略梯度；

S400，在策略分布相近时，使用二次KL散度近似KL散度，并基于加权重要性采样修正虚拟经验数据与原始经验数据的分布偏差，以此估计策略间KL散度值；

S500，通过KL散度修正策略梯度方向，并通过最大KL散度步长计算更新策略步长；根据上述策略步长更新现有策略，并回到S100，重复策略更新过程，直至策略收敛。

作为本发明的进一步改进，S100中，通过机器人当前执行动作策略与环境交互情况，获取机器人执行动作的经验数据

其中，是由机器人当前状态s_t作为输入到机器人执行动作a_t的映射，通过执行动作a_t，机器人会从环境中获取奖励值r_t；