[发明专利]智能体训练方法、装置、计算机设备和存储介质在审

申请号：	202111106047.2	申请日：	2021-09-22
公开（公告）号：	CN113919482A	公开（公告）日：	2022-01-11
发明（设计）人：	陈广浩;杨洋;李锋;张琛;万化	申请（专利权）人：	上海浦东发展银行股份有限公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06N3/00
代理公司：	广州华进联合专利商标代理有限公司 44224	代理人：	黄丽霞
地址：	200001 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	智能训练方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种智能体训练方法、装置、计算机设备和存储介质。该方法包括：获取多个经验动作数据，经验动作数据为进化种群中多个目标样本智能体与环境交互学习的经验动作；基于多个经验动作数据，获取初始强化学习智能体输出的动作数据的奖励信息；根据奖励信息和预设的损失函数，对初始强化学习智能体的网络参数进行更新；若初始强化学习智能体更新后的网络参数与目标网络参数相同，则结束对初始强化学习智能体的网络参数的更新，得到训练完成的强化学习智能体。本申请将进化算法和深度强化学习相结合，可以提高深度强化学习的学习效率和效果，从而更好的控制强化智能体完成连续控制任务。

技术领域

本申请涉及智能体协同控制技术领域，特别是涉及一种智能体训练方法、装置、计算机设备和存储介质。

背景技术

深度强化学习(Deep Reinforcement Learning)是一种融合了深度学习和强化学习，从而实现直接从感知到动作映射的全新算法。通过输入感知信息(比如视觉)，然后通过深度神经网络直接输出动作，中间没有硬编码的过程。深度强化学习结合了深度神经网络和强化学习的优势，可以有效的求解智能体(Agent)在高维复杂问题下的感知决策问题，是通用人工智能领域的前沿研究方向，具有广阔的应用前景。

深度强化学习的关键是：通过一个智能体(Agent)不断与环境进行交互来获得训练样本，从而训练一个深度策略网络。在该深度策略网络中，智能体接收表征当前环境状态数据，并响应接收的环境状态数据执行来自连续动作空间的动作，以试图在环境中执行相应的任务。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决奖励稀疏问题的智能体训练方法、装置、计算机设备和存储介质。

第一方面，提供了一种智能体训练方法，该方法包括：

获取多个经验动作数据，经验动作数据为进化种群中多个目标样本智能体与环境交互学习的经验动作；

基于多个经验动作数据，获取初始强化学习智能体输出的动作数据的奖励信息；

根据奖励信息和预设的损失函数，对初始强化学习智能体的网络参数进行更新；

若初始强化学习智能体更新后的网络参数与目标网络参数相同，则结束对初始强化学习智能体的网络参数的更新，得到训练完成的强化学习智能体。

在其中一个实施例中，在获取多个经验动作数据之前，方法包括：

通过进化策略对进化种群中的第一样本智能体进行繁殖处理，获取第二样本智能体；第一样本智能体为进化种群中满足预设的适应度条件的样本智能体；

通过进化算法对第二样本智能体进行繁殖处理，获取第三样本智能体；

根据第一样本智能体、第二样本智能体和第三样本智能体的适应度，确定多个目标样本智能体；