[发明专利]一种嵌套命名实体识别方法、装置及相关设备在审
申请号: | 202110266230.2 | 申请日: | 2021-03-11 |
公开(公告)号: | CN112926330A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 黄勇其;王伟;于翠翠 | 申请(专利权)人: | 润联软件系统(深圳)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 李翔宇 |
地址: | 518000 广东省深圳市福田区梅林街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 嵌套 命名 实体 识别 方法 装置 相关 设备 | ||
本发明公开了一种嵌套命名实体识别方法、装置及相关设备,对原始文本数据进行分层组合和标注;对原始文本数据进行编码;对编码数据进行卷积,得到卷积值;将卷积值和编码数据作为输入数据分别进行解码;对每一解码数据分别进行解码得到第一实体,并对第一实体构建图网络形成每一解码数据对应的图特征;将每一图特征分别与对应的解码数据进行拼接融合得到融合数据;将每一融合数据和相应层数的标注数据同时输入条件随机场;随后通过解码得到对应的原始文本数据中的第二实体;对识别到的第二实体进行整合。本发明通过将嵌套命名实体任务转换为多层次命名实体识别任务、引入图结构信息,提高了嵌套命名实体识别的准确率。
技术领域
本发明涉及命名实体识别技术领域,尤其涉及一种嵌套命名实体识别方法、装置及相关设备。
背景技术
随着互联网及计算机技术的发展,各行各业迫切需要自动化以及可以从海量数据中快速提取出真正有价值信息的工具,因此各种信息抽取技术得到了快速发展。命名实体识别(NER)是信息抽取任务中的关键技术,其目的就是在文档中识别出特定的名词或短语,例如:机构名、人名、地名、日期、数字等。该技术在知识图谱、智能问答、语义分析等自然语言处理领域有着广泛的应用。
嵌套命名实体是指一个命名实体内部存在着若干个具有嵌套结构的实体,比如“南京长江大桥”中存在“南京”、“南京长江大桥”两个命名实体,命名实体“南京”嵌套在命名实体“南京长江大桥”内部。不同的实体蕴含着不同的语义信息,“南京”是一个城市,“南京长江大桥”是一个地址,为了尽可能保留文本语义的完整性,有必要对多层嵌套的每一个实体进行区分。
目前针对嵌套命名实体的识别方法主要包括语法解析模型和层叠式模型。
语法解析模型通过使用语法解析树进行识别,依赖于语法解析模块的精度,识别准确率较低。
层叠式模型即通过堆叠多个NER识别层的方式来解决,如论文《A neural layeredmodel for nested entity recognition》所述模型,该模型首先通过底层NER识别句子中最内层的实体,如果有实体被识别出,模型会基于当前NER识别层往上堆叠新的NER层,直到不再有实体被识别出。但是这种模型依赖于上一层的识别结果,一定程度上带来了级联误差,导致准确率较低。
发明内容
本发明的目的是提供一种嵌套命名实体识别方法、装置及相关设备,旨在解决现有技术中,嵌套命名实体识别准确率低下的问题。
第一方面,本发明实施例提供了一种嵌套命名实体识别方法,包括:
对原始文本数据进行分层组合和标注,得到L层标注数据,其中,L为最长的实体长度;
对所述原始文本数据进行编码,得到编码数据;
对所述编码数据进行L-1次卷积,得到L-1个卷积值,每一卷积值对应相应层数的标注数据;
将所述L-1个卷积值和编码数据作为输入数据分别进行解码,得到对应的L个解码数据;
对每一所述解码数据分别进行解码得到第一实体,并对所述第一实体构建图网络形成每一所述解码数据对应的图特征;
将每一所述图特征分别与对应的所述解码数据进行拼接融合得到L个融合数据;
将每一融合数据和相应层数的标注数据同时输入条件随机场,得到每个字符组属于不同标签的概率值;
结合所述概率值,通过解码得到对应的所述原始文本数据中的第二实体;
对识别到的所述第二实体进行整合,得到所有实体。
第二方面,本发明实施例提供了一种嵌套命名实体识别装置,包括:
标记单元,对原始文本数据进行分层组合和标注,得到L层标注数据,其中,L为最长的实体长度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于润联软件系统(深圳)有限公司,未经润联软件系统(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110266230.2/2.html,转载请声明来源钻瓜专利网。