[发明专利]基于迁移学习的基地命名实体识别系统及方法在审
| 申请号: | 202111652819.2 | 申请日: | 2021-12-30 |
| 公开(公告)号: | CN114356990A | 公开(公告)日: | 2022-04-15 |
| 发明(设计)人: | 马良荔;覃基伟;李陶圆;何智勇;牛敬华 | 申请(专利权)人: | 中国人民解放军海军工程大学 |
| 主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F40/295;G06F40/284;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 武汉开元知识产权代理有限公司 42104 | 代理人: | 李满 |
| 地址: | 430000 *** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 迁移 学习 基地 命名 实体 识别 系统 方法 | ||
本发明公开了基于迁移学习的基地命名实体识别方法,包括如下步骤:1、对基地数据进行采集和预处理,并根据需要预定义实体类型;2、对基地数据进行标注;3、获取开源的迁移学习模型;4、对本发明所述模型进行训练;5、进行命名实体识别。本发明通过迁移学习使得模型利用额外的海量数据进行预先的自监督训练,解决了传统深度学习模型需要海量标注训练数据的限制,同时运用泛化能力较强的BiGRU模型编码实体的上下文信息,在人为干预较少的情况下实现更准确的基地命名实体预测,为后续知识图谱的自动化构建提供了技术支持。
技术领域
本发明涉及面向自然语言处理和迁移学习的技术领域,具体地指一种基于迁移学习的基地命名实体识别系统及方法。
背景技术
随着自媒体的不断兴起,互联网上以自然语言描述的非结构化数据不断增多,其中暗含了很多可以为机器决策提供助力的信息。这些信息可以用于购物推荐、智能搜索、辅助决策等。在这个用户主导生成内容的时代,大多数内容由自然语言的方式进行描述,如何自动化整理、归纳这些内容中的信息,并用于辅助机器决策,需要进行针对性的研究探索。
自然语言处理是一种采用计算机对自然语言进行分析理解,使得机器得以处理自然语言这样非结构化数据的技术手段,有利于机器对非结构化的数据中有实际语义知识的抽取,提升机器自动化智能化获取知识的能力。
知识图谱是组织、管理和应用这些从非结构化的数据中获取的知识的有力工具,命名实体识别是知识图谱构建的关键步骤之一。细分领域知识图谱的构建过程中,标注的训练数据匮乏的情况时有发生,基地知识图谱亦是如此。
迁移学习是解决神经网络在面对训练数据匮乏情况下表现不佳问题的技术手段,通过使用海量非直接目标的数据对神经网络进行深层次的预先训练,使得神经网络在未使用目标数据进行训练前就拥有了海量数据作为背景知识,最终提高模型在稀缺数据下的泛化能力。
典型的命名实体识别方法有:制定产生式规则的方法、基于机器分类算法的方法、基于深度学习的方法。研究表明,与传统的命名实体识别方法相比,基于深度学习的方法拥有更好的准确率和召回率,适合进行有大规模训练数据的命名实体识别。然而,基于深度学习的方法的研究多集中于通用领域的命名实体识别,在基地描述识别方面还存在着诸多挑战。一方面,基地描述数据相对通用领域来说较为稀缺,深度学习训练神经网络所需要的海量数据的要求难以满足;另一方面,基地命名实体识别需要对实体类型进行细分,实体种类较多,提高了命名实体识别的复杂性。因此,基地命名实体识别方法需要在减少所需目标训练数据、提高模型对描述文本的细粒度学习能力、提高模型的泛化能力等方面有所提高和改进。
发明内容
本发明的目的就是要提供一种基于迁移学习的基地命名实体识别系统及方法,本发明致力于解决公开的基地描述文本数据较少,不便于传统深度学习模型训练的问题。通过加入使用海量额外数据进行预训练的ALBERT模型作为基础模型,以迁移学习的模式生成描述文本的细粒度词向量,同时采用BiGRU模型作为编码层,对基地描述文本的前向信息和后向信息进行学习,采用CRF模型对输出进行约束,得到符合要求的命名实体识别结果。
为实现此目的,本发明所设计的基于迁移学习的基地命名实体识别方法,其特征在于:它包括如下步骤:
步骤1:从互联网获取基地的自然语言描述语料,并对自然语言描述语料进行预处理,从而去除图片描述信息和HTML标签信息,并统一描述属性值的单位;
步骤2:对预处理之后的自然语言描述语料随机划分成测试集、验证集和训练集,运用BIOES格式标注方式对测试集的自然语言描述语料、验证集的自然语言描述语料和训练集的自然语言描述语料进行实体标注,形成BIOES标注格式的测试集、验证集、训练集;
步骤3:获取开源的迁移学习ALBERT模型,通过基地的自然语言描述语料,使用finetune方式更新开源的迁移学习ALBERT模型,得到更新后的迁移学习ALBERT层;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军海军工程大学,未经中国人民解放军海军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111652819.2/2.html,转载请声明来源钻瓜专利网。





