[发明专利]样本数据处理的方法、装置、计算机程序产品和存储介质在审
申请号: | 202111417183.3 | 申请日: | 2021-11-25 |
公开(公告)号: | CN114219012A | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 李东超;崔鸣 | 申请(专利权)人: | 北京房江湖科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/295;G06F40/211;G06F40/289 |
代理公司: | 北京思源智汇知识产权代理有限公司 11657 | 代理人: | 王晓多 |
地址: | 101300 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 数据处理 方法 装置 计算机 程序 产品 存储 介质 | ||
本公开实施例公开了一种样本数据处理的方法、装置、计算机程序产品和存储介质,其中,方法包括:获取待处理的文本集;确定样本文本的句法结构以及句法结构在文本集中的数量占比;将样本文本输入命名实体识别模型,确定样本文本中的字的边界标签及边界标签的置信度;基于边界标签确定样本文本中包括的实体,并确定实体的F值以及类型标签;确定实体的类型标签在文本集中的数量占比;基于实体的类型标签在文本集中的数量占比、实体的F值以及句法结构在文本集中的数量占比,确定样本文本的支持度;基于边界标签的置信度,确定样本文本的混淆度;基于样本文本的支持度、混淆度、预设的支持度阈值和混淆度阈值,从文本集中获取目标样本文本。
技术领域
本公开涉及人工智能领域和自然语言处理领域,尤其涉及一种样本数据处理的方法、装置、计算机程序产品和存储介质。
背景技术
在自然语言处理领域中,序列标注是句子层面的主要任务,用于在给定的文本序列上预测序列中需要作出标注的标签。
为了提高序列标注模型的性能,需要高质量的样本对序列标注模型进行训练,混淆程度高、信息量大的样本可以在序列标注模型的优化过程中起到更大的作用。因此,如何挑选更有价值的样本是提高序列标注模型性能的重要因素。
相关技术中,为了选取“最易混淆”或“信息量”最大的样本,通常采用以下几种方法:最小置信度选择方法(Least Confident),可以选取预测概率最大但是“可信度”较低的样本;最小间距样本选择方法(margin sampling),可以选取模型预测最大的两个概率值的差值最小的样本。最小置信度选择方法忽略了概率较低的样本,最小间距样本选择方法同样只考虑了预测概率最大的两个样本,导致样本选取的效率较低。
发明内容
本公开实施例提供一种样本数据处理的方法、装置、计算机程序产品和存储介质,以选取价值更高的样本文本。
本公开实施例的一个方面,提供一种样本数据处理的方法,包括:获取待处理的文本集,文本集包括一个以上样本文本;确定样本文本的句法结构,并确定句法结构在文本集中的数量占比;将样本文本输入预先训练的命名实体识别模型,经命名实体识别模型输出样本文本中出的字的边界标签及边界标签的置信度;基于边界标签确定样本文本中包括的实体,并确定实体的F值以及类型标签;确定实体的类型标签在文本集中的数量占比;基于实体的类型标签在文本集中的数量占比、实体的F值以及句法结构在文本集中的数量占比,确定样本文本的支持度;基于边界标签的置信度,确定样本文本的混淆度;基于样本文本的支持度、混淆度、预设的支持度阈值和混淆度阈值,从文本集中选取目标样本文本。
在一些实施例中,基于边界标签的置信度,确定样本文本的混淆度,包括:基于边界标签的置信度,确定字的信息熵;将实体中包括的字的信息熵的均值确定为实体的混淆度;将样本文本中包括的实体的混淆度的均值确定为样本文本的混淆度。
在一些实施例中,该方法还包括确定实体的类型标签的置信度;基于边界标签的置信度,确定字的信息熵,包括:基于字所属的实体的类型标签的置信度调整边界标签的置信度,得到调整后的边界标签的置信度;基于调整后的边界标签的置信度,确定字的信息熵。
在一些实施例中,样本文本的支持度与句法结构在文本集中的数量占比正相关,样本文本的支持度与第一数值正相关,且样本文本的支持度与第二数值负相关,其中,第一数值为样本中包括的各实体的类型标签在文本集中的数量占比的均值,第二数值为样本文本中包括的各实体的F值的均值。
在一些实施例中,句法结构经由如下步骤确定:对样本文本进行分词,得到分词序列;确定分词序列中的词的词性;基于词性,对分词序列进行句法分析,得到句法结构。
在一些实施例中,实体的类型标签经由如下步骤得到:利用Elastic Search对实体进行实体类型召回,得到实体的类型标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京房江湖科技有限公司,未经北京房江湖科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111417183.3/2.html,转载请声明来源钻瓜专利网。