[发明专利]一种基于众包模式的样本标注方法在审
申请号: | 202011292894.8 | 申请日: | 2020-11-18 |
公开(公告)号: | CN112348108A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 何国良;王晗;黄成瑞 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 李丹 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模式 样本 标注 方法 | ||
1.一种基于众包模式的样本标注方法,其特征在于,包括以下步骤:
1)获取未标注的多元时间序列数据集,抽取选择数据集中需要标注的样本;
2)对所有标注者,基于每个标注者的标注准确度和标注成本,选择达到置信度阈值且成本最低的标注者集,作为成本效益众包标注模型;
3)对抽取的需要标注的样本,基于成本效益众包标注模型得到标注结果,将标注后的样本加入标注数据集,并将其逆最近邻样本与该未标注样本分为同一类,加入标记数据集,得到更新后的标记数据集;
4)计算停止标准,达到停止条件后,得到多元时间序列数据集对应的最终的标记数据集结果。
2.根据权利要求1所述的基于众包模式的样本标注方法,其特征在于,所述步骤1)中多元时间序列数据集为工业传感器数据,金融数据,医疗数据,服务器系统监控数据等。
3.根据权利要求1所述的基于众包模式的样本标注方法,其特征在于,所述步骤1)中采用抽样算法选择确定数据集中需要标注的样本。
4.根据权利要求1所述的基于众包模式的样本标注方法,其特征在于,所述步骤2)中选择达到置信度阈值且成本最低的标注者集,具体如下:
2.1)对于所有标注者,采取适应性标注者选择算法得到用于标注的标注者集;
2.2)基于标注者集中的每个标注者的标注准确度和标注成本,通过群体智能决策计算得到标注者群体标注置信度,对各标注者的标注成本求和得到标注者群体标注成本;
2.3)获取在满足置信度要求的条件下,标注成本最低的标注者群体作为标注者集,该标注者集表示如下:
其中,U表示未标注样本,表示标注者个体,表示用于标注的标注者集,Cost(a)表示标注者集中标注者a的标注成本,Confid(U,H*)表示标注者群体对未标注样本U的标注置信度,δ为置信度阈值。
5.根据权利要求4所述的基于众包模式的样本标注方法,其特征在于,所述步骤2.1)中采取适应性标注者选择算法得到用于标注的标注者集,具体如下:
2.1.1)初始时随机生成具有N个个体的人群Θ,人群Θ中的每个个体由一组二进制编码构成,每个二进制码表示第i个标注者被选择的情况,被选择时为1,否则为0;
2.1.2)对人群Θ中的所有个体进行适应度评价,适应度用标记置信度和标记成本表示,对于人群Θ中的任一个个体适应度F采用下式计算:
其中,Costmax是所有可行解的最大成本,为惩罚方程;
2.1.3)进行交叉操作,对两个个体的交叉点之前的二进制码片段进行交换,得到两个新的个体,在两个原个体和两个新个体中选择适应度最高的两个个体保留,接下来对保留的个体分别执行变异操作,随机改变个体的一个二进制编码值,保留变异前个体与变异后个体中适应度最高的个体;
2.1.4)当满足迭代停止条件时,得到适应度满足需求的个体集合即为标注者集
6.根据权利要求1所述的基于众包模式的样本标注方法,其特征在于,所述步骤4)中停止条件为在连续几轮迭代中抽取选择的样本之间价值差异变化收敛时,则判断剩余的未标记样本中不存在重要的样本,达到停止条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011292894.8/1.html,转载请声明来源钻瓜专利网。