[发明专利]一种基于数据增强与主动学习的小样本命名实体识别方法有效
申请号: | 202110688053.7 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113361278B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 黄震;李青青;窦勇;胡彪;金持;潘衡岳;汪昌健 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04 |
代理公司: | 湖南企企卫知识产权代理有限公司 43257 | 代理人: | 任合明 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 增强 主动 学习 样本 命名 实体 识别 方法 | ||
本发明公开了一种基于数据增强与主动学习的小样本命名实体识别方法,目的是提升主动学习方法早期识别未标注数据的F1值,且针对多种查询策略有效。技术方案是先构建结合数据增强的主动命名实体识别系统;准备训练命名实体识别模型所需的数据集。主动学习模块、数据标注模块、数据增强模块采用多轮循环的方式对命名实体识别模块中的命名实体识别模型进行训练并对数据进行标注和增强。训练后的命名实体识别模块对测试数据池T内的文本进行命名实体识别,得到预测的标签序列。本发明实现了在早期参与训练的标注数据少时快速提高命名实体识别的效果,使得相比原来的主动学习下的命名实体识别方法,多种查询策略的F1值都有提升。
技术领域
本发明涉及命名实体识别领域,特指一种基于数据增强与主动学习的小样本命名实体识别方法。
背景技术
自然语言是指中文、英语、西班牙语、法语、德语等等语言,作为人们日常使用的其他语言,它们对人类的交流有着重要作用。自然语言是随着人类社会的发展而自然产生的语言,而不是由人类所特意创造的语言。自然语言处理,就是利用计算机的计算能力对人类的自然语言的形、音、义等信息进行处理,即对字、词、句、篇章这些不同层次的信息,进行输入、输出、识别、分析、理解、生成操作,并对这些信息进行加工。进而实现人机或是机器与机器间的信息交流,是全球人工智能界、计算机科学和语言学界所共同关注的重要问题。人工智能技术的发展与硬件设备计算性能的提升,推动了自然语言处理领域文本分类、信息抽取、知识图谱等多项技术的深入研究。
命名实体识别,又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。通常包括两部分:(1)实体边界识别;(2)确定实体类别(人名、地名、机构名或其他)。命名实体识别是自然语言处理领域的一个重要分支,是知识图谱,信息抽取等多项任务的基础,因而成为热门研究的课题之一。
从早期基于词典和规则的方法,到传统机器学习的方法,到近年来基于深度学习的方法被应用于命名实体识别,命名实体识别的效果在不断提升。通常,命名实体识别的效果使用F1度量。(为了能够评价不同算法的优劣,在准确率(表示预测为正的样本中有多少是真正的正样本)和召回率(表示样本中的正例有多少被预测正确)的基础上提出了F1值的概念,来对准确率和召回率进行整体评价。F1的定义如下:F1值=正确率×召回率×2/(正确率+召回率)。)然而,在处理小样本数据时,由于参与训练的标注样本有限,很难获得有效的模型,深度学习的优势将减弱。同时,大量手工标注的样本代价昂贵。因此,如何提升小样本数据下的命名实体识别效果(即F1值增大)是一个重要研究点。
一种提升小样本数据下的命名实体识别效果的有效解决方案是主动学习,它可以通过多轮查询策略来挑选更有价值的标注数据进行训练,标注数据的数量相同时,使用主动学习后,训练得到的命名实体识别模型F1值更高。
主动学习应用于命名实体识别时的对不同数据集的普适性是一个重要研究点。现有的主动学习方法应用于命名实体识别时,针对不同的数据集提出了不同的查询策略。但查询策略不具备普适性,查询策略需要提前确定,训练过程中不能调整。如果查询策略在一种数据集上训练得到的命名实体识别模型F1值有提升,更换数据集后,可能没有提升甚至会下降。同时,主动学习依赖于多轮循环的训练,因此早期(即多轮循环初期)参与训练的标注数据通常较少,导致命名实体识别模型受标注数据限制,F1值的提升慢。
因此,如何充分利用标注数据,在早期参与训练的标注数据少时也能快速提高命名实体识别的效果,提供一种主动学习框架下的命名实体识别方法,使其对多种查询策略得到的模型F1值都有提升,是本领域技术人员正在探讨的热点问题。
发明内容
本发明要解决的技术问题是针对早期参与训练的标注数据较少,命名实体识别模型受标注数据限制,识别未标注数据的F1值低的缺陷,提供一种基于数据增强与主动学习的小样本命名实体识别方法。此方法基于现有的主动学习框架,利用数据增强,使得相比原来的主动学习框架,不管采用常用查询策略中的哪一种,命名实体识别F1值都有提升。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110688053.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置