[发明专利]待标注语料的分配方法、装置、可读存储介质及电子设备在审
申请号: | 201711297674.2 | 申请日: | 2017-12-08 |
公开(公告)号: | CN108170670A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 李玉信;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹;南毅宁 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 标注 可读存储介质 电子设备 集合 结束条件 人工标注 训练模型 输出 分配 预设 工作量 返回 | ||
本公开涉及一种待标注语料的分配方法、装置、可读存储介质及电子设备,所述方法包括:获取一初始待标注语料集合;输出一目标待标注语料,以对所述目标待标注语料进行语料标注;在对所述目标待标注语料完成语料标注后,从所述初始待标注语料集合中未进行语料标注的待标注语料中,确定与所述目标待标注语料相关性最小的待标注语料,并将该待标注语料确定为新的目标待标注语料;返回所述输出一目标待标注语料,以对目标待标注语料进行语料标注的步骤,直到满足预设的标注结束条件为止。因此,可以使得目标待标注语料分散地分布在语料空间中,降低人工标注的工作量,也可以提高基于该标注的语料进行训练的语料训练模型的精度,拓宽模型适用范围。
技术领域
本公开涉及语言处理领域,具体地,涉及一种待标注语料的分配方法、装置、可读存储介质及电子设备。
背景技术
分词作为自然语言处理的基础,其准确度直接影响自然语言处理的结果。为了获取好的分词结果,则需要质量好的CRF(conditional random field,条件随机场)模型,而对CRF模型进行训练时需要准备好训练语料,一般针对业务场景需要对训练语料进行人工标注。
在语料标注过程中,为了降低人工标注的工作量,会定期使用标注好的语料训练模型对未标注的语料进行预标注,然后标注者在预标注的基础上进行人工标注。现有技术中,在进行人工标注时,可能会出现大量的训练语料集中在同一类型,即可能会连续对几个相似的训练语料进行标注,在该种情况下,则会浪费许多人工标注的工作量,即在进行了大量的人工标注后,也可能只是对该语料空间中的某一类型进行标注,难以基于该训练语料对语料训练模型进行训练。同时,也可能会出现标注的语料不全面,使得语料训练模型的使用范围小,精度差。
发明内容
本公开的目的是提供一种精度高、使用范围广的待标注语料的分配方法、装置、可读存储介质及电子设备。
为了实现上述目的,根据本公开的第一方面,提供一种待标注语料的分配方法,所述方法包括:
获取一初始待标注语料集合;
输出一目标待标注语料,以对所述目标待标注语料进行语料标注,其中,所述目标待标注语料初始为所述初始待标注语料集合中的任一待标注语料;
在对所述目标待标注语料完成语料标注后,从所述初始待标注语料集合中未进行语料标注的待标注语料中,确定与所述目标待标注语料相关性最小的待标注语料,并将该待标注语料确定为新的目标待标注语料;
返回所述输出一目标待标注语料,以对所述目标待标注语料进行语料标注的步骤,直到满足预设的标注结束条件为止。
可选地,所述从所述初始待标注语料集合中未进行语料标注的待标注语料中,确定与所述目标待标注语料相关性最小的待标注语料,包括:
获取所述目标待标注语料的分词集合;
针对所述初始待标注语料集合中未进行语料标注的每个待标注语料,通过以下公式计算该待标注语料与所述目标待标注语料的相关性:
其中,ir表示所述初始待标注语料集合中第r个未进行语料标注的待标注语料与所述目标待标注语料的相关性;
TFj表示所述分词集合中第j个分词在所述第r个未进行语料标注的待标注语料中的词频;
IDFj表示所述分词集合中第j个分词在所述初始待标注语料集合中的逆向文件频率;
q表示所述分词集合中的分词总数。
可选地,所述获取所述目标待标注语料的分词集合,包括:
对所述目标待标注语料的分词进行去重操作以及去停用词操作后,获得所述目标待标注语料的分词集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711297674.2/2.html,转载请声明来源钻瓜专利网。