[发明专利]一种基于众包模式的样本标注方法在审

申请号：	202011292894.8	申请日：	2020-11-18
公开（公告）号：	CN112348108A	公开（公告）日：	2021-02-09
发明（设计）人：	何国良;王晗;黄成瑞	申请（专利权）人：	武汉大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	湖北武汉永嘉专利代理有限公司 42102	代理人：	李丹
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于模式样本标注方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于众包模式的样本标注方法，包括以下步骤：1)获取未标注的多元时间序列数据集，抽取选择数据集中需要标注的样本；2)对所有标注者，基于每个标注者的标注准确度和标注成本，选择达到置信度阈值且成本最低的标注者集，作为成本效益众包标注模型；3)对抽取的需要标注的样本，基于成本效益众包标注模型得到标注结果，将标注后的样本加入标注数据集，并将其逆最近邻样本与该未标注样本分为同一类，加入标记数据集，得到更新后的标记数据集；4)计算停止标准，达到停止条件后，得到多元时间序列数据集对应的最终的标记数据集结果。本发明方法用于实现对未标注样本可靠且低成本的标注。

技术领域

本发明涉及数据挖掘技术，尤其涉及一种基于众包模式的样本标注方法。

背景技术

高质量的数据集对于模型的训练至关重要。但是现实生活中，标记数据往往数量很少，并且对数据的高效准确的标注耗时且昂贵。针对此问题，主动学习逐渐成为研究热点，而其中的一个关键就是对未标记样本的有效标注，传统的机器学习算法往往没有考虑到标注者准确性不同的问题。为提升标注准确度，研究者们提出了一些众包标注算法，其中最重要的问题在于标注者的标注误差。

为提升基于众包标注数据训练得到的分类器性能，Zhang等学者提出了一种群体学习的元学习集成方法，尽可能保存对学习有价值的信息而不是查询训练实例的真实标签。基于半监督学习，Atarashi等学者改进了一种众包标记过程的泛化模型，通过引入未标注数据的潜在特征和数据分布有效利用未标注数据。为提高众包标注的质量，Liu等学者设计了一种有效的在线算法，利用简单的多数投票规则随时间推移分辨高质量和低质量标注者。

此外，主动学习的成本也是一个重要问题。为了在低成本条件下提高标注准确度，Huang等学者提出了衡量实例-标注者对的成本-有效性的主动学习标准，为实例选择成本相对较低并可提供准确标注的标注者。

以上研究对于众包标注的准确性和标注成本分别展开了研究。然而，现有的传统众包标注方法未考虑群体智能，事实上，每个个体对于不同种类的实例标注准确度不同。此外，标注准确度与标注成本之间需要进行权衡，在保证标注准确度满足要求的同时，尽可能降低标注成本。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于众包模式的样本标注方法。

本发明解决其技术问题所采用的技术方案是：一种基于众包模式的样本标注方法，包括以下步骤：

1)获取未标注的多元时间序列数据集，抽取选择数据集中需要标注的样本；

2)对所有标注者，基于每个标注者的标注准确度和标注成本，选择达到置信度阈值且成本最低的标注者集，作为成本效益众包标注模型；

3)对抽取的需要标注的样本，基于成本效益众包标注模型得到标注结果，将标注后的样本加入标注数据集，并将其逆最近邻样本与该未标注样本分为同一类，加入标记数据集，得到更新后的标记数据集；

4)计算停止标准，达到停止条件后，得到多元时间序列数据集对应的最终的标记数据集结果。

按上述方案，所述步骤1)中多元时间序列数据集为工业传感器数据，金融数据，医疗数据，服务器系统监控数据等。

按上述方案，所述步骤1)中采用抽样算法选择确定数据集中需要标注的样本。

按上述方案，所述步骤2)中选择达到置信度阈值且成本最低的标注者集，具体如下：