[发明专利]学生模型训练方法、装置、计算机设备及存储介质在审
| 申请号: | 202010812947.8 | 申请日: | 2020-08-13 |
| 公开(公告)号: | CN112749728A | 公开(公告)日: | 2021-05-04 |
| 发明(设计)人: | 杨振;黄申 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 张所明 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 学生 模型 训练 方法 装置 计算机 设备 存储 介质 | ||
本申请提供了一种学生模型训练方法、装置、计算机设备及存储介质,属于人工智能技术领域。方法包括:获取教师模型对样本数据集中的多个样本数据分别进行预测得到的多个第一标签;根据教师模型,分别确定多个第一标签的可信度信息,可信度信息用于表示对应的第一标签的可信程度;根据样本数据集、多个第一标签以及多个第一标签的可信度信息,对学生模型进行训练。上述技术方案,使得学生模型在基于样本数据集和样本数据集中的样本数据的第一标签进行训练时,能够根据第一标签的可信度信息来进行区分训练,降低可信程度低的第一标签对训练的影响,从而提高学生模型的学习效率。
技术领域
本申请涉及人工智能技术领域,特别涉及一种学生模型训练方法、装置、计算机设备及存储介质。
背景技术
在人工智能技术领域,较大、较复杂的模型虽然通常具有很好的性能,但是也存在很多的冗余信息,因此运算量以及资源的消耗都非常多。知识蒸馏作为一种模型压缩的方法,能够减少模型训练过程中的运算量和资源消耗,被广泛应用于图像识别、机器翻译以及命名实体识别等领域。
目前,知识蒸馏方法首先训练一个参数量较大、性能较高的教师模型,然后利用该教师模型对训练数据进行前项解码,然后将教师模型解码得到的软标签,作为训练目标,训练一个参数量较小的学生模型,使得学生模型的性能逼近教师模型。其中,软标签用于表示训练数据被预测为不同结果的概率。
上述技术方案存在的问题是,教师模型解码得到的软标签可能存在错误,而学生模型无法确定软标签是否正确,只能不加以区分的进行训练,导致学生模型的学习效率较低。
发明内容
本申请实施例提供了一种学生模型训练方法、装置、计算机设备及存储介质,能够降低可信程度低的第一标签对训练的影响,从而提高学生模型的学习效率。所述技术方案如下:
一方面,提供了一种学生模型训练方法,所述方法包括:
获取教师模型对样本数据集中的多个样本数据分别进行预测得到的多个第一标签,一个第一标签用于表示一个样本数据的预测结果,所述教师模型由所述样本数据集训练得到;
根据所述教师模型,分别确定所述多个第一标签的可信度信息,所述可信度信息用于表示对应的第一标签的可信程度;
根据所述样本数据集、所述多个第一标签以及所述多个第一标签的可信度信息,对学生模型进行训练。
另一方面,提供了一种学生模型训练装置,所述装置包括:
标签获取模块,用于获取教师模型对样本数据集中的多个样本数据分别进行预测得到的多个第一标签,一个第一标签用于表示一个样本数据的预测结果,所述教师模型由所述样本数据集训练得到;
信息确定模块,用于根据所述教师模型,分别确定所述多个第一标签的可信度信息,所述可信度信息用于表示对应的第一标签的可信程度;
第一模型训练模块,用于根据所述样本数据集、所述多个第一标签以及所述多个第一标签的可信度信息,对学生模型进行训练。
在一种可选的实现方式中,所述信息确定模块,包括:
预测子模块,用于对于任一样本数据,根据被设置为目标状态的所述教师模型,对所述样本数据进行目标次数的预测,所述目标状态用于指示所述教师模型中的至少一个神经节点被设置为失活状态,所述失活状态用于表示神经节点的输出为0;
信息确定子模块,用于根据所述样本数据被预测为所述第一标签的多个第一概率值,确定所述第一标签的可信度信息。
在一种可选的实现方式中,所述预测子模块,用于每次预测时,随机将所述教师模型中的至少一个神经节点设置为失活状态;根据包括至少一个已设置为失活状态的神经节点的教师模型,对所述样本数据进行预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010812947.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:大广角光学镜头
- 下一篇:道路侧定位方法、装置、设备及存储介质





