[发明专利]神经网络训练方法和装置、存储介质及电子装置有效
申请号: | 201711037964.3 | 申请日: | 2017-10-27 |
公开(公告)号: | CN109726808B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 杨夏;张力柯 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 赵囡囡 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 训练 方法 装置 存储 介质 电子 | ||
本发明公开了一种神经网络训练方法和装置、存储介质及电子装置。其中,该方法包括:获取用于训练人机交互应用中的神经网络的离线样本集合,其中,离线样本集合中包括满足预定配置条件的离线样本;使用离线样本集合离线训练初始神经网络,得到对象神经网络,其中,在人机交互应用中,对象神经网络的处理能力高于初始神经网络的处理能力;将对象神经网络接入人机交互应用的在线运行环境进行在线训练,得到目标神经网络。本发明解决了相关技术提供的神经网络训练方法中存在的训练效率较低的技术问题。
技术领域
本发明涉及计算机领域,具体而言,涉及一种神经网络训练方法和装置、存储介质及电子装置。
背景技术
深度Q网络(Deep Q Network,简称DQN)算法是一种融合卷积神经网络和Q-Learning的方法,应用于深度增强学习(Deep Reinforcement Learning,简称DRL)中,其中,深度增强学习DRL是将深度学习和增强学习结合起来,从而实现从感知到动作的端到端学习的一种全新的算法。也就是说,在输入感知信息之后,通过深度神经网络,直接输出动作,以使机器人实现完全自主的学习甚至多种技能的潜力,从而实现人工智能(ArtificialIntelligence,简称AI)操作。为了使机器人更好的完成自主学习,以熟练应用于不同的场景中,通过训练以快速准确地获取神经网络,就成为当前迫切需要的问题。
目前,用于接入在线训练环境训练神经网络的样本对象,通常级别很低,在训练初期时,有很大概率是做出随机动作,虽然可以很好地探索训练环境的状态空间,但却延长了训练时间,此外,由于级别很低,往往需要在训练环境中进行不断地探索学习,才能达到一定的训练目的。
也就是说,相关技术中提供的神经网络训练方法所需训练时间较长,从而导致神经网络训练效率较低的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种神经网络训练方法和装置、存储介质及电子装置,以至少解决相关技术提供的神经网络训练方法中存在的训练效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种神经网络训练方法,包括:获取用于训练人机交互应用中的神经网络的离线样本集合,其中,上述离线样本集合中包括满足预定配置条件的离线样本;使用上述离线样本集合离线训练初始神经网络,得到对象神经网络,其中,在上述人机交互应用中,上述对象神经网络的处理能力高于上述初始神经网络的处理能力;将上述对象神经网络接入上述人机交互应用的在线运行环境进行在线训练,得到目标神经网络。
根据本发明实施例的另一方面,还提供了一种神经网络训练装置,包括:获取单元,用于获取用于训练人机交互应用中的神经网络的离线样本集合,其中,上述离线样本集合中包括满足预定配置条件的离线样本;离线训练单元,用于使用上述离线样本集合离线训练初始神经网络,得到对象神经网络,其中,在上述人机交互应用中,上述对象神经网络的处理能力高于上述初始神经网络的处理能力;在线训练单元,用于将上述对象神经网络接入上述人机交互应用的在线运行环境进行在线训练,得到目标神经网络。
根据本发明实施例的又一方面,还提供了一种存储介质,上述存储介质包括存储的程序,其中,上述程序运行时执行上述的方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的计算机程序,上述处理器通过上述计算机程序执行上述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711037964.3/2.html,转载请声明来源钻瓜专利网。