[发明专利]一种神经网络模型优化方法、装置、设备和存储介质在审

申请号：	202010590567.4	申请日：	2020-06-24
公开（公告）号：	CN111753959A	公开（公告）日：	2020-10-09
发明（设计）人：	刘江;章晓庆	申请（专利权）人：	南方科技大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06K9/62
代理公司：	北京品源专利代理有限公司 11332	代理人：	潘登
地址：	518055 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种神经网络模型优化方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种神经网络模型优化方法、装置、设备和存储介质。该方法包括：基于预设标记类别对训练数据的输出真实值进行分类；将所述训练数据输入至目标神经网络模型进行计算和特征提取以得到输出预测值和所述输出预测值的标记类别；根据同一标记类别的所述输出真实值和输出预测值得到所述目标神经网络模型的训练误差；根据所述训练误差对所述目标神经网络模型进行优化。本发明实施例实现了优化训练误差提高神经网络模型的性能。

技术领域

本发明实施例涉及神经网络技术，尤其涉及一种神经网络模型优化方法、装置、设备和存储介质。

背景技术

在神经网络模型训练过程中，标准交叉熵函数常作为损失函数来计算神经网络模型的训练过程中每一次迭代以后样本的训练误差(损失)。神经网络模型就是基于得到的训练误差通过这样一次次迭代更新，使得神经网络模型能学习到用于识别不同类别的知识信息。

现有的标准交叉熵函数及其改进损失函数的误差计算都是基于训练过程中采样的样本数量，和大致可以分为三大类：所有样本同等对待求和平均、不同类别的样本标记赋予不同权重再求和平均、不同样本预测概率值赋予不同的权重再求和平均。

但是这种误差计算方式都是基于一次训练过程中的标记总量而不是基于标记类别的数目，并且基于一次迭代过程中采样的样本数量和采样具有随机性和不确定性，这使得神经网络模型可能只学习一部分标记的样本知识，大部分标记的样本知识可能是欠学习(欠表达)状态，即学习到的知识带有偏差。例如对于一个分类任务，在一次训练过程，标记总量N，标记类别的数目K，但是前三类标记占总标记样本数目的90％，剩余K-3只占10％，这会导致神经网络模型只学习前三类标记，忽略剩余标记种类。这种情况在标记不平衡数据集中表现特别明显，也称作数据不平衡现象，会使得实际使用时的神经网络模型性能和准确性大幅下降。

发明内容

本发明实施例提供一种神经网络模型优化方法、装置、设备和存储介质，以实现优化训练误差提高神经网络模型的性能。

为达此目的，本发明实施例提供了一种神经网络模型优化方法、装置、设备和存储介质，该方法包括：

基于预设标记类别对训练数据的输出真实值进行分类；

将所述训练数据输入至目标神经网络模型进行计算和特征提取以得到输出预测值和所述输出预测值的标记类别；

根据同一标记类别的所述输出真实值和输出预测值得到所述目标神经网络模型的训练误差；

根据所述训练误差对所述目标神经网络模型进行优化。

进一步的，所述根据同一标记类别的所述输出真实值和输出预测值得到所述目标神经网络模型的训练误差包括：

分别获取不同标记类别的输出预测值的平均值作为第一输出预测值；

获取所述第一输出预测值的对数值作为第二输出预测值；

获取同一标记类别的所述第二输出预测值和输出真实值的乘积作为第三输出预测值；

获取所述第三输出预测值的平均值作为所述目标神经网络模型的训练误差。