[发明专利]一种针对标记不充分数据的半监督命名实体识别方法在审
| 申请号: | 202210636113.5 | 申请日: | 2022-06-07 |
| 公开(公告)号: | CN115048933A | 公开(公告)日: | 2022-09-13 |
| 发明(设计)人: | 张祥;陈海燕;袁书伟 | 申请(专利权)人: | 东南大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06K9/62;G16H10/00 |
| 代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 叶倩 |
| 地址: | 210096 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 针对 标记 不充分 数据 监督 命名 实体 识别 方法 | ||
本发明公开了一种针对标记不充分数据的半监督命名实体识别方法,首先,使用无标记的领域数据对BERT进行微调,得到领域适应的BERT;用标记数据训练领域适应的BERT,得到ROSE‑NER‑基础模型;再用ROSE‑NER‑基础模型预测出伪标记数据;最后结合标记数据和伪标记数据,从而训练最终的ROSE‑NER模型。本方法通过使用大量的伪标记数据来扩充少量的标记数据,从而缓解标记数据过少的问题;通过一个修正的损失函数来调整模型训练中黄金标记和伪标记数据的权重;通过对抗训练的方法来减轻噪声数据的影响,大大解决了专业领域的数据标记不足和噪声数据的问题。
技术领域
本发明属于计算机自然语言处理的技术领域,尤其涉及一种针对标记不充分数据的半监督命名实体识别方法。
背景技术
命名实体识别是信息抽取的一个子任务,旨在定位非结构化文本中的命名实体并将其分类为预先定义的类别。近年来随着深度学习技术的广泛应用,当有充足的标注数据时,命名实体识别任务的效果得到了明显的改善,但这些方法仍然面临着数据不充分和噪声的挑战。
深度模型通常对训练数据有很强的要求,这些模型的性能在很大程度上依赖于标注数据的数量和质量。但在许多专业领域,用于标注的注释预算远远少于未标注数据的总数。例如,在医学领域,有大量的未标注的医疗记录、临床报告和生物医学文献。对这些数据进行标注是相当繁重的,因为它需要扎实的医学知识背景,而这只能由医学专家来完成,工作量繁重。这种标记数据不足的情况在现实世界的应用中也普遍存在。除此之外,噪声数据也会严重影响NER模型的稳健性,因而专业领域内的数据标注不充分和数据噪声是我们当前需要主要面对和克服的问题。
发明内容
本发明正是针对现有技术中数据标注不充分且含有数据噪声的问题,提供一种针对标记不充分数据的半监督命名实体识别方法,首先,使用无标记的领域数据对BERT进行微调,得到领域适应的BERT;用标记数据训练领域适应的BERT,得到ROSE-NER-基础模型;再用ROSE-NER-基础模型预测出伪标记数据;最后结合标记数据和伪标记数据,从而训练最终的ROSE-NER模型。本方法通过使用大量的伪标记数据来扩充少量的标记数据,从而缓解标记数据过少的问题;通过一个修正的损失函数来调整模型训练中黄金标记和伪标记数据的权重;通过对抗训练的方法来减轻噪声数据的影响,大大解决了专业领域的数据标记不足和噪声数据的问题。
为了实现上述目的,本发明采取的技术方案是:一种针对标记不充分数据的半监督命名实体识别方法,包括以下几个步骤:
S1,构建领域适应BERT:使用BERT作为获得词表示的模块,并使用大量无标记的领域数据对原始BERT进行微调,得到领域适应的BERT;
S2,获取ROSE-NER-基础模型:用少量的黄金标记数据训练领域适应的BERT,得到ROSE-NER-基础模型,所述基础模型中,原始的句子输入到词表示模块,词表示模块由领域适应的BERT和BiLSTM构成,然后由BiLSTM输出每个词的BIO标注概率到边界表示模块,最终由边界表示模块输出BIO标注以及实体类别;
S3,预测伪标记:将无标记数据送入ROSE-NER-基础模型,把模型的预测结果作为数据的伪标记,同时设有对抗训练的方法提高模型的鲁棒性,所述对抗训练为min-max的优化问题,即:
其中,θ表示模型参数,(x,y)~D表示从数据分布D中采样的原始训练样本,(x,y)表示原始嵌入和对应的标签,radv表示向词嵌入x中添加的扰动,S表示扰动集,L表示损失函数,max表示构建使损失最大的扰动,而min表示寻找到一个模型使得能正确分类受扰动的对抗样本;
S4,扩展数据集:将标记数据和伪标记数据结合起来,一起作为训练数据;
S5,获得最终模型:用经过步骤S4获得的扩展数据集来训练ROSE-NER-基础模型,得到最终的ROSE-NER模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210636113.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便于加线的电脑横机
- 下一篇:胶类中药提取液浓缩工艺及控制系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





