[发明专利]一种针对标记不充分数据的半监督命名实体识别方法在审

专利信息
申请号: 202210636113.5 申请日: 2022-06-07
公开(公告)号: CN115048933A 公开(公告)日: 2022-09-13
发明(设计)人: 张祥;陈海燕;袁书伟 申请(专利权)人: 东南大学
主分类号: G06F40/295 分类号: G06F40/295;G06K9/62;G16H10/00
代理公司: 南京众联专利代理有限公司 32206 代理人: 叶倩
地址: 210096 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 标记 不充分 数据 监督 命名 实体 识别 方法
【说明书】:

发明公开了一种针对标记不充分数据的半监督命名实体识别方法,首先,使用无标记的领域数据对BERT进行微调,得到领域适应的BERT;用标记数据训练领域适应的BERT,得到ROSE‑NER‑基础模型;再用ROSE‑NER‑基础模型预测出伪标记数据;最后结合标记数据和伪标记数据,从而训练最终的ROSE‑NER模型。本方法通过使用大量的伪标记数据来扩充少量的标记数据,从而缓解标记数据过少的问题;通过一个修正的损失函数来调整模型训练中黄金标记和伪标记数据的权重;通过对抗训练的方法来减轻噪声数据的影响,大大解决了专业领域的数据标记不足和噪声数据的问题。

技术领域

本发明属于计算机自然语言处理的技术领域,尤其涉及一种针对标记不充分数据的半监督命名实体识别方法。

背景技术

命名实体识别是信息抽取的一个子任务,旨在定位非结构化文本中的命名实体并将其分类为预先定义的类别。近年来随着深度学习技术的广泛应用,当有充足的标注数据时,命名实体识别任务的效果得到了明显的改善,但这些方法仍然面临着数据不充分和噪声的挑战。

深度模型通常对训练数据有很强的要求,这些模型的性能在很大程度上依赖于标注数据的数量和质量。但在许多专业领域,用于标注的注释预算远远少于未标注数据的总数。例如,在医学领域,有大量的未标注的医疗记录、临床报告和生物医学文献。对这些数据进行标注是相当繁重的,因为它需要扎实的医学知识背景,而这只能由医学专家来完成,工作量繁重。这种标记数据不足的情况在现实世界的应用中也普遍存在。除此之外,噪声数据也会严重影响NER模型的稳健性,因而专业领域内的数据标注不充分和数据噪声是我们当前需要主要面对和克服的问题。

发明内容

本发明正是针对现有技术中数据标注不充分且含有数据噪声的问题,提供一种针对标记不充分数据的半监督命名实体识别方法,首先,使用无标记的领域数据对BERT进行微调,得到领域适应的BERT;用标记数据训练领域适应的BERT,得到ROSE-NER-基础模型;再用ROSE-NER-基础模型预测出伪标记数据;最后结合标记数据和伪标记数据,从而训练最终的ROSE-NER模型。本方法通过使用大量的伪标记数据来扩充少量的标记数据,从而缓解标记数据过少的问题;通过一个修正的损失函数来调整模型训练中黄金标记和伪标记数据的权重;通过对抗训练的方法来减轻噪声数据的影响,大大解决了专业领域的数据标记不足和噪声数据的问题。

为了实现上述目的,本发明采取的技术方案是:一种针对标记不充分数据的半监督命名实体识别方法,包括以下几个步骤:

S1,构建领域适应BERT:使用BERT作为获得词表示的模块,并使用大量无标记的领域数据对原始BERT进行微调,得到领域适应的BERT;

S2,获取ROSE-NER-基础模型:用少量的黄金标记数据训练领域适应的BERT,得到ROSE-NER-基础模型,所述基础模型中,原始的句子输入到词表示模块,词表示模块由领域适应的BERT和BiLSTM构成,然后由BiLSTM输出每个词的BIO标注概率到边界表示模块,最终由边界表示模块输出BIO标注以及实体类别;

S3,预测伪标记:将无标记数据送入ROSE-NER-基础模型,把模型的预测结果作为数据的伪标记,同时设有对抗训练的方法提高模型的鲁棒性,所述对抗训练为min-max的优化问题,即:

其中,θ表示模型参数,(x,y)~D表示从数据分布D中采样的原始训练样本,(x,y)表示原始嵌入和对应的标签,radv表示向词嵌入x中添加的扰动,S表示扰动集,L表示损失函数,max表示构建使损失最大的扰动,而min表示寻找到一个模型使得能正确分类受扰动的对抗样本;

S4,扩展数据集:将标记数据和伪标记数据结合起来,一起作为训练数据;

S5,获得最终模型:用经过步骤S4获得的扩展数据集来训练ROSE-NER-基础模型,得到最终的ROSE-NER模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210636113.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top