[发明专利]智能体训练方法、装置、计算机设备和存储介质在审
申请号: | 202111106047.2 | 申请日: | 2021-09-22 |
公开(公告)号: | CN113919482A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 陈广浩;杨洋;李锋;张琛;万化 | 申请(专利权)人: | 上海浦东发展银行股份有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N3/00 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 黄丽霞 |
地址: | 200001 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 训练 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种智能体训练方法、装置、计算机设备和存储介质。该方法包括:获取多个经验动作数据,经验动作数据为进化种群中多个目标样本智能体与环境交互学习的经验动作;基于多个经验动作数据,获取初始强化学习智能体输出的动作数据的奖励信息;根据奖励信息和预设的损失函数,对初始强化学习智能体的网络参数进行更新;若初始强化学习智能体更新后的网络参数与目标网络参数相同,则结束对初始强化学习智能体的网络参数的更新,得到训练完成的强化学习智能体。本申请将进化算法和深度强化学习相结合,可以提高深度强化学习的学习效率和效果,从而更好的控制强化智能体完成连续控制任务。
技术领域
本申请涉及智能体协同控制技术领域,特别是涉及一种智能体训练方法、装置、计算机设备和存储介质。
背景技术
深度强化学习(Deep Reinforcement Learning)是一种融合了深度学习和强化学习,从而实现直接从感知到动作映射的全新算法。通过输入感知信息(比如视觉),然后通过深度神经网络直接输出动作,中间没有硬编码的过程。深度强化学习结合了深度神经网络和强化学习的优势,可以有效的求解智能体(Agent)在高维复杂问题下的感知决策问题,是通用人工智能领域的前沿研究方向,具有广阔的应用前景。
深度强化学习的关键是:通过一个智能体(Agent)不断与环境进行交互来获得训练样本,从而训练一个深度策略网络。在该深度策略网络中,智能体接收表征当前环境状态数据,并响应接收的环境状态数据执行来自连续动作空间的动作,以试图在环境中执行相应的任务。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决奖励稀疏问题的智能体训练方法、装置、计算机设备和存储介质。
第一方面,提供了一种智能体训练方法,该方法包括:
获取多个经验动作数据,经验动作数据为进化种群中多个目标样本智能体与环境交互学习的经验动作;
基于多个经验动作数据,获取初始强化学习智能体输出的动作数据的奖励信息;
根据奖励信息和预设的损失函数,对初始强化学习智能体的网络参数进行更新;
若初始强化学习智能体更新后的网络参数与目标网络参数相同,则结束对初始强化学习智能体的网络参数的更新,得到训练完成的强化学习智能体。
在其中一个实施例中,在获取多个经验动作数据之前,方法包括:
通过进化策略对进化种群中的第一样本智能体进行繁殖处理,获取第二样本智能体;第一样本智能体为进化种群中满足预设的适应度条件的样本智能体;
通过进化算法对第二样本智能体进行繁殖处理,获取第三样本智能体;
根据第一样本智能体、第二样本智能体和第三样本智能体的适应度,确定多个目标样本智能体;
将各目标样本智能体与环境交互学习的经验动作数据,存储至循环重播缓冲区。
在其中一个实施例中,通过进化策略对进化种群中的第一样本智能体进行繁殖处理,获取第二样本智能体,包括:
对第一样本智能体进行重组处理,得到第一子代;
对第一子代进行突变处理,得到第二子代;
根据进化策略预设的第一适应度函数,将第二子代中满足适应度条件的第二子代作为第二样本智能体。
在其中一个实施例中,通过进化算法对第二样本智能体进行繁殖处理,获取第三样本智能体,包括:
对第二样本智能体中各样本智能体组进行交叉处理,得到第三子代;每个样本智能体组包括第二样本智能体中任意两个样本智能体;
对第三子代进行变异处理,得到第四子代;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海浦东发展银行股份有限公司,未经上海浦东发展银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111106047.2/2.html,转载请声明来源钻瓜专利网。