[发明专利]用于增强学习的策略生成网络的训练方法、装置和电子设备在审
| 申请号: | 202010867107.1 | 申请日: | 2020-08-26 |
| 公开(公告)号: | CN112016678A | 公开(公告)日: | 2020-12-01 |
| 发明(设计)人: | 赵瑞;徐伟 | 申请(专利权)人: | 南京地平线机器人技术有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N20/00;B25J9/16 |
| 代理公司: | 北京唐颂永信知识产权代理有限公司 11755 | 代理人: | 刘伟 |
| 地址: | 210046 江苏省南京市*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 增强 学习 策略 生成 网络 训练 方法 装置 电子设备 | ||
公开了一种用于增强学习的策略生成网络的训练方法,训练装置和电子设备。该用于增强学习的策略生成网络的训练方法包括:获取执行任务的对象的连续对象状态信息和所述对象所作用的环境的连续环境状态信息;确定所述连续对象状态信息和所述连续环境状态信息的联合概率分布,以及所述连续对象状态信息和所述连续环境状态信息各自的第一边缘分布和第二边缘分布;确定所述联合概率分布与所述第一边缘分布和所述第二边缘分布之积的KL散度值;以及,以所述KL散度值作为奖励函数而通过预定策略更新所述策略生成网络的参数。这样,提高了策略生成网络生成策略的性能。
技术领域
本申请涉及增强学习技术领域,且更为具体地,涉及一种用于增强学习的策略生成网络的训练方法、训练装置和电子设备。
背景技术
近来,增强学习(RL)结合深度学习(DL)在很多奖励驱动的任务中取得了成功,包括在各种游戏中展现出超越人的性能,此外在机器人的连续控制任务,复杂环境内的导航任务,操纵物体的任务中也表现出优异的性能。
但是,尽管取得了很多成就,当前的增强学习任务中,执行任务的对象,例如操纵物体的机器人通常仅从外部奖励信号中学习,这不同于人的学习过程。例如,在人学习操纵物体的过程中,人不仅尝试完成任务,而且学习掌握环境的可控制方面。比如,即使在无监督状态下,人也可以快速地发现自己的动作与环境的状态改变之间的关联,从而使用该技能来将环境操纵为想要的状态。
并且,在当前的实际的增强学习任务中,设计能够保证执行任务的对象,学习到想要的行为,例如操纵物体的行为的外部奖励函数是很困难的。因此,期望提供改进的用于生成执行任务的对象的动作的策略生成网络的训练方案,以在缺乏外部奖励的情况下有效地生成执行任务的对象的动作。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种用于增强学习的策略生成网络的训练方法,训练装置和电子设备,其确定对象状态和环境状态之间的互信息,即对象状态和环境状态的概率分布之间的KL散度值,以作为奖励函数训练策略生成网络,从而提高了策略生成网络生成策略的性能。
根据本申请的一方面,提供了一种用于增强学习的策略生成网络的训练方法,包括:获取执行任务的对象的连续对象状态信息和所述对象所作用的环境的连续环境状态信息,所述连续对象状态信息包含所述对象的多个对象状态,且所述连续环境状态信息包含所述环境的多个环境状态;确定所述连续对象状态信息和所述连续环境状态信息的联合概率分布,以及所述连续对象状态信息和所述连续环境状态信息各自的第一边缘分布和第二边缘分布;确定所述联合概率分布与所述第一边缘分布和所述第二边缘分布之积的KL散度值;以及,以所述KL散度值作为奖励函数而通过预定策略更新所述策略生成网络的参数。
根据本申请的另一方面,提供了一种用于增强学习的策略生成网络的训练装置,包括:状态获取单元,用于获取执行任务的对象的连续对象状态信息和所述对象所作用的环境的连续环境状态信息,所述连续对象状态信息包含所述对象的多个对象状态,且所述连续环境状态信息包含所述环境的多个环境状态;分布确定单元,用于确定所述状态获取单元所获取的所述连续对象状态信息和所述连续环境状态信息的联合概率分布,以及所述连续对象状态信息和所述连续环境状态信息各自的第一边缘分布和第二边缘分布;散度值确定单元,用于确定所述分布确定单元所确定的所述联合概率分布与所述第一边缘分布和所述第二边缘分布之积的KL散度值;以及,网络更新单元,用于以所述散度值确定单元所确定的所述KL散度值作为奖励函数而通过预定策略更新所述策略生成网络的参数。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的用于增强学习的策略生成网络的训练方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的用于增强学习的策略生成网络的训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京地平线机器人技术有限公司,未经南京地平线机器人技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010867107.1/2.html,转载请声明来源钻瓜专利网。





