[发明专利]一种基于数据增强与主动学习的小样本命名实体识别方法有效

专利信息
申请号: 202110688053.7 申请日: 2021-06-21
公开(公告)号: CN113361278B 公开(公告)日: 2022-02-15
发明(设计)人: 黄震;李青青;窦勇;胡彪;金持;潘衡岳;汪昌健 申请(专利权)人: 中国人民解放军国防科技大学
主分类号: G06F40/295 分类号: G06F40/295;G06N3/04
代理公司: 湖南企企卫知识产权代理有限公司 43257 代理人: 任合明
地址: 410073 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 增强 主动 学习 样本 命名 实体 识别 方法
【说明书】:

发明公开了一种基于数据增强与主动学习的小样本命名实体识别方法,目的是提升主动学习方法早期识别未标注数据的F1值,且针对多种查询策略有效。技术方案是先构建结合数据增强的主动命名实体识别系统;准备训练命名实体识别模型所需的数据集。主动学习模块、数据标注模块、数据增强模块采用多轮循环的方式对命名实体识别模块中的命名实体识别模型进行训练并对数据进行标注和增强。训练后的命名实体识别模块对测试数据池T内的文本进行命名实体识别,得到预测的标签序列。本发明实现了在早期参与训练的标注数据少时快速提高命名实体识别的效果,使得相比原来的主动学习下的命名实体识别方法,多种查询策略的F1值都有提升。

技术领域

本发明涉及命名实体识别领域,特指一种基于数据增强与主动学习的小样本命名实体识别方法。

背景技术

自然语言是指中文、英语、西班牙语、法语、德语等等语言,作为人们日常使用的其他语言,它们对人类的交流有着重要作用。自然语言是随着人类社会的发展而自然产生的语言,而不是由人类所特意创造的语言。自然语言处理,就是利用计算机的计算能力对人类的自然语言的形、音、义等信息进行处理,即对字、词、句、篇章这些不同层次的信息,进行输入、输出、识别、分析、理解、生成操作,并对这些信息进行加工。进而实现人机或是机器与机器间的信息交流,是全球人工智能界、计算机科学和语言学界所共同关注的重要问题。人工智能技术的发展与硬件设备计算性能的提升,推动了自然语言处理领域文本分类、信息抽取、知识图谱等多项技术的深入研究。

命名实体识别,又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。通常包括两部分:(1)实体边界识别;(2)确定实体类别(人名、地名、机构名或其他)。命名实体识别是自然语言处理领域的一个重要分支,是知识图谱,信息抽取等多项任务的基础,因而成为热门研究的课题之一。

从早期基于词典和规则的方法,到传统机器学习的方法,到近年来基于深度学习的方法被应用于命名实体识别,命名实体识别的效果在不断提升。通常,命名实体识别的效果使用F1度量。(为了能够评价不同算法的优劣,在准确率(表示预测为正的样本中有多少是真正的正样本)和召回率(表示样本中的正例有多少被预测正确)的基础上提出了F1值的概念,来对准确率和召回率进行整体评价。F1的定义如下:F1值=正确率×召回率×2/(正确率+召回率)。)然而,在处理小样本数据时,由于参与训练的标注样本有限,很难获得有效的模型,深度学习的优势将减弱。同时,大量手工标注的样本代价昂贵。因此,如何提升小样本数据下的命名实体识别效果(即F1值增大)是一个重要研究点。

一种提升小样本数据下的命名实体识别效果的有效解决方案是主动学习,它可以通过多轮查询策略来挑选更有价值的标注数据进行训练,标注数据的数量相同时,使用主动学习后,训练得到的命名实体识别模型F1值更高。

主动学习应用于命名实体识别时的对不同数据集的普适性是一个重要研究点。现有的主动学习方法应用于命名实体识别时,针对不同的数据集提出了不同的查询策略。但查询策略不具备普适性,查询策略需要提前确定,训练过程中不能调整。如果查询策略在一种数据集上训练得到的命名实体识别模型F1值有提升,更换数据集后,可能没有提升甚至会下降。同时,主动学习依赖于多轮循环的训练,因此早期(即多轮循环初期)参与训练的标注数据通常较少,导致命名实体识别模型受标注数据限制,F1值的提升慢。

因此,如何充分利用标注数据,在早期参与训练的标注数据少时也能快速提高命名实体识别的效果,提供一种主动学习框架下的命名实体识别方法,使其对多种查询策略得到的模型F1值都有提升,是本领域技术人员正在探讨的热点问题。

发明内容

本发明要解决的技术问题是针对早期参与训练的标注数据较少,命名实体识别模型受标注数据限制,识别未标注数据的F1值低的缺陷,提供一种基于数据增强与主动学习的小样本命名实体识别方法。此方法基于现有的主动学习框架,利用数据增强,使得相比原来的主动学习框架,不管采用常用查询策略中的哪一种,命名实体识别F1值都有提升。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110688053.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top