[发明专利]一种基于噪声标签学习的众包获取标签数据清洗方法有效

申请号：	202110645466.7	申请日：	2021-06-10
公开（公告）号：	CN113361201B	公开（公告）日：	2023-08-25
发明（设计）人：	王崇骏;陈明猜;姜文玉;商一帆;张雷	申请（专利权）人：	南京大学
主分类号：	G06F30/27	分类号：	G06F30/27;G06N3/04;G06N3/084;G06F111/08;G06F119/10
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	陈建和
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于噪声标签学习获取数据清洗方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于噪声标签学习的众包获取标签数据清洗方法，其特征在于，包括以下步骤：

步骤S1、模型热启动；使用带噪声的众包获取标签数据对深度模型进行初步训练；

步骤S2、噪声分离；通过初步训练后的深度模型对训练数据进行预测，计算噪声标签与预测结果的交叉熵损失，并采用EM算法以高斯混合模型拟合损失的分布，获取各数据属于较小均值子分布的概率，根据所述概率将数据分为噪声数据和纯净数据两个部分；当所述概率低于0.5时，判定该数据为噪声数据，否则判定该数据为纯净数据；

其中，所述采用EM算法以高斯混合模型拟合损失的分布，具体如下：

步骤S2.1、选择参数θ的初始值θ₀，开始迭代；

步骤S2.2、基于模型参数θ计算隐变量的期望值：

其中Z为隐变量，即某个子分布；

步骤S2.3、求使得Q函数极大化的θ值，确定第i+1次迭代的参数的估计值θ_(i+1)如下：

其中θ_(i)、θ_(i+1)为第i、i+1轮迭代的参数；

步骤S2.4、重复步骤S2.2-S2.3，直至达到预先设定期望值；

步骤S3、重新训练；使用步骤S2中分离后的纯净数据中的若干部分重新训练深度模型；

步骤S4、最终噪声分离；使用训练完成的深度模型对训练数据进行预测，计算噪声标签与预测结果的交叉熵损失；当损失值大于预设阈值时，判定目标数据为噪声数据，否则判定目标数据为纯净数据。

2.根据权利要求1所述的一种基于噪声标签学习的众包获取标签数据清洗方法，其特征在于，所述步骤S1中初步训练步骤具体包括：

步骤S1.1、参数随机初始化；以正态分布初始化参数；

步骤S1.2、执行前向传播，对于任意的输入，计算出损失函数；具体地，对于带噪声数据集计算交叉熵损失函数其中H为样本预测与真实类别间的交叉熵；