[发明专利]深度强化学习模型的训练方法、装置、介质及设备在审
| 申请号: | 202110127253.5 | 申请日: | 2021-01-29 |
| 公开(公告)号: | CN112766497A | 公开(公告)日: | 2021-05-07 |
| 发明(设计)人: | 范嘉骏;肖昌南 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06K9/62 |
| 代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹 |
| 地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 深度 强化 学习 模型 训练 方法 装置 介质 设备 | ||
本公开涉及一种深度强化学习模型的训练方法、装置、介质及设备,所述方法包括:获取深度强化学习模型与虚拟环境交互所产生的交互序列,其中,交互序列包括多个采样数据,每一采样数据包括虚拟环境的第一状态、决策动作、以及在虚拟环境处于所述第一状态对应的状态下执行所述决策动作所得到的回报值和第二状态;针对每一所述采样数据,根据所述深度强化学习模型的优势函数和所述采样数据对应的决策策略,确定所述采样数据对应的计算动作价值;针对每一所述采样数据,根据所述采样数据对应的目标采样数据和所述目标采样数据对应的计算动作价值,确定所述深度强化模型对应的更新梯度信息;根据所述更新梯度信息对所述深度强化学习模型进行更新。
技术领域
本公开涉及计算机技术领域,具体地,涉及一种深度强化学习模型的训练方法、装置、介质及设备。
背景技术
随机计算机技术的发展,各类大型模型、复杂的机器学习模型逐渐开始应用。深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,更接近人类思维方式。在深度强化学习模型的训练过程中,通常需要基于动作值函数对某一状态下的选择决策动作策略进行评价,以便于该深度强化学习模型的策略提升。
相关技术中,在基于动作值函数进行计算获得动作价值的过程中会引入误差,并且在进行梯度更新时通常是基于当前步的策略或回报进行更新,难以通过梯度优化的方式确定出最优策略,难以保证深度强化学习模型的训练效率和准确性。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种深度强化学习模型的训练方法,所述方法包括:
获取深度强化学习模型与虚拟环境交互所产生的交互序列,其中,所述交互序列包括多个采样数据,其中,每一所述采样数据包括所述虚拟环境的第一状态、决策动作、以及在所述虚拟环境处于所述第一状态对应的状态下执行所述决策动作所得到的回报值和第二状态;
针对每一所述采样数据,根据所述深度强化学习模型的优势函数和所述采样数据对应的决策策略,确定所述采样数据对应的计算动作价值,其中,所述决策策略对应的概率分布为基于所述优势函数和所述深度强化学习模型的策略熵参数构造的,所述深度强化学习模型中的目标超参数的取值基于所述目标超参数对应的参数确定模型和所述交互序列生成的交互样本进行更新,所述交互样本中包含与所述交互序列对应的所述目标超参数的采样取值和所述深度强化学习模型对应的优化特征参数,所述目标超参数包括所述策略熵参数;
针对每一所述采样数据,根据所述采样数据对应的目标采样数据和所述目标采样数据对应的计算动作价值,确定所述深度强化模型对应的更新梯度信息,其中,所述采样数据对应的所述目标采样数据包括所述采样数据本身,并且,若所述采样数据不为所述交互序列中的最后一个采样数据,则所述目标采样数据还包括所述交互序列中处于所述采样数据之后的每一采样数据,所述更新梯度信息包括状态值函数对应的梯度信息、动作值函数对应的梯度信息和策略梯度信息中的至少一种;
根据所述更新梯度信息对所述深度强化学习模型进行更新。
第二方面,本公开提供一种深度强化学习模型的训练装置,所述装置包括:
获取模块,用于获取深度强化学习模型与虚拟环境交互所产生的交互序列,其中,所述交互序列包括多个采样数据,其中,每一所述采样数据包括所述环境的第一状态、决策动作、以及在所述环境处于所述第一状态对应的状态下执行所述决策动作所得到的回报值和第二状态;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110127253.5/2.html,转载请声明来源钻瓜专利网。





