[发明专利]一种基于人工智能的深度学习网络训练方法在审
申请号: | 202110910635.5 | 申请日: | 2021-08-09 |
公开(公告)号: | CN113592078A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 王俊凯 | 申请(专利权)人: | 郑州大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 成都鱼爪智云知识产权代理有限公司 51308 | 代理人: | 谷科均 |
地址: | 450040 河南省郑*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 深度 学习 网络 训练 方法 | ||
本发明公开了一种基于人工智能的深度学习网络训练方法、系统、设备及存储介质,涉及人工智能技术领域,一种基于人工智能的深度学习网络训练方法,包括以下步骤:构建神经网络;神经网络参数初始化;获取验证集和多个训练集,将神经网络分别在多个训练集上训练以得到多个子神经网络模型;分别在验证集上对多个子神经网络模型进行验证;依据验证结果的精确度由高到低选取固定比例的子神经网络模型,对被选出的子神经网络模型的参数进行调整,然后令被选出的子神经网络模型继续进行训练;训练完成后,选取最优子神经网络模型。本发明所提供的方法、系统有效解决了模型的过拟合问题,提升了模型的训练性能和精确度。
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种基于人工智能的深度学习网络训练方法、系统、设备及存储介质。
背景技术
深度学习解决了许多具有挑战的问题,其成果已经广泛地应用于计算机视觉、语音识别、自然语言处理等领域。基于深度学习图像识别、视频处理、语音识别等技术在边缘计算系统的端设备上有巨大的应用前景和需求。然而传统的深度学习模型通常包含大量的参数冗余,容易遇到过拟合问题,使得神经网络模型在训练过程中难以保证得到最优的结果。目前,现有技术中还缺少一种良好的训练机制,以用于解决以上问题。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种基于人工智能的深度学习网络训练方法、系统、设备及存储介质,有效解决了模型的过拟合问题,提升了模型的训练性能和精确度。
本发明的实施例是这样实现的:
第一方面,本发明实施例提供一种基于人工智能的深度学习网络训练方法,包括以下步骤:S101、构建神经网络;S102、将上述神经网络的参数初始化;S103、将获取的原始数据分为验证集和多个训练集,将上述神经网络分别在多个上述训练集上训练以得到多个子神经网络模型;S104、每轮训练结束后,分别在上述验证集上对多个上述子神经网络模型进行验证;S105、依据验证结果的精确度由高到低选取固定比例的子神经网络模型,依据验证结果对被选出的子神经网络模型的参数进行调整后,令被选出的子神经网络模型继续在各自的训练集上进行训练;S106、重复上述S104-S105的步骤,直至上述子神经网络模型收敛,输出上述子神经网络模型;S107、选取最优的子神经网络模型,得到的最优参数值,保留最优参数值,训练结束。
基于第一方面,在本发明一些实施例中,上述构建神经网络包括:建立神经网络的输入层、隐藏层和输出层;确定神经网络的激活函数。
基于第一方面,在本发明一些实施例中,上述激活函数包括sigmoid函数、tanh函数、ReLU函数或ELU函数。上述参数初始化的方式包括:He初始化、随机初始化和pre-train初始化。
基于第一方面,在本发明一些实施例中,上述训练集包括问题项及与上述问题项相对应的答案项;在步骤S103中,上述神经网络在上述训练集上训练的过程为:将上述训练集的数据输入上述神经网络,上述神经网络通过正向传播计算得到输出值;依据上述输出值与上述答案项计算得到损失函数;依据上述损失函数通过反向传播对上述神经网络的各网络层的参数值进行更新以得到新的神经网络。
基于第一方面,在本发明一些实施例中,在步骤S105中,按固定比例选取出的子神经网络模型的数量不低于初始子神经网络模型数量的预设比例阈值。
基于第一方面,在本发明一些实施例中,在步骤S105中,上述依据验证结果对被选出的子神经网络模型的参数进行调整之前,还包括:依据上述验证结果判断上述子神经网络模型为过拟合还是欠拟合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州大学,未经郑州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110910635.5/2.html,转载请声明来源钻瓜专利网。