[发明专利]一种基于跨度和知识增强的实体关系联合抽取方法有效
| 申请号: | 202011021524.0 | 申请日: | 2020-09-25 |
| 公开(公告)号: | CN112214610B | 公开(公告)日: | 2023-09-08 |
| 发明(设计)人: | 张骁雄;刘姗姗;丁鲲;张雨豪;张慧;刘茗;蒋国权;漆桂林;周晓磊 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/284;G06F40/289;G06F40/205;G06F17/18;G06N3/045;G06N3/047;G06N3/048;G06N3/08 |
| 代理公司: | 江苏瑞途律师事务所 32346 | 代理人: | 韦超峰;金龙 |
| 地址: | 210007 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 跨度 知识 增强 实体 关系 联合 抽取 方法 | ||
本发明公开了一种基于跨度和知识增强的实体关系联合抽取方法,属于信息抽取和自然语言处理技术领域。本发明首先构建样本数据集并对数据集进行标注;然后进行实体识别和关系分类,具体地,对标注后的数据,利用预训练语言模型将高维离散空间的词映射到低维连续空间向量;利用基于跨度的模型进行跨度识别、过滤和关系分类;利用基于图的模型将关系分类转化为图分类,引入句法依存关系,从而辅助关系判断分类;对基于跨度的模型的输出结果和基于图的模型的输出结果进行联合训练,识别数据中包含的实体以及实体间的关系。本发明在端到端的神经网络模型中引入依存关系等句法信息,进而有效识别出重叠关系,提升实体关系联合抽取准确率。
技术领域
本发明属于信息抽取和自然语言处理技术领域,具体涉及一种基于跨度和知识增强的实体关系联合抽取方法。
背景技术
抽取实体及其之间的内在关系对于理解文本起着至关重要的作用。具体而言,命名实体识别和关系分类在判断文本结构以用于知识图谱构建、基于知识的问答等下游任务中尤为关键,其中,命名实体识别是指识别文本中具有特定意义的实体并判断出该实体的类型(人名、地名、机构名、专有名词等),关系分类则是判断一组给定实体对之间存在的关系类型。
传统的实体关系抽取方法是一个流水线过程,即将命名实体识别和关系分类分为两个独立的子任务,给定一段文本后,先识别其中的实体,之后判断识别出的实体间的关系类型。这种流水线方法虽然实施较为容易,但是过程中极易发生误差传递,如果命名实体识别过程中发生错误,则会影响后续关系分类的效果。针对上述问题,近来一些研究中提出了联合实体关系抽取的方法,以此来充分挖掘实体及其关系之间的潜在依赖关系,使得命名实体识别和关系分类两个任务能起到相得益彰的效果。联合的实体关系抽取方法虽然能有效缓解流水线方法中存在的误差传递问题,但是对于数据集标注的要求很高,需要大量的高质量标注数据来对模型进行训练。然而,在特定领域下标注数据耗时且难度大。与此同时,现有的基于端到端神经网络的实体关系抽取方法不能充分挖掘句子之间的句法、语义等信息,而且基于BIO/BILO等标注体系标注的数据集中忽视了重叠关系、多标签等现象,这样会影响实体关系抽取的效果。
发明内容
技术问题:针对现有实体关系抽取方法对实体关系抽取效果差的问题,本发明提出一种基于跨度和知识增强的实体关系联合抽取方法,能够在端到端的神经网络模型中引入依存关系等句法信息,识别出重叠的关系,从而提高实体关系的抽取准确率。
技术方案:本发明的基于跨度和知识增强的实体关系联合抽取方法,包括以下步骤:
S1:构建数据集
收集特定领域的数据,并对所收集的数据进行清洗,构建该领域数据集;
S2:标注数据
随机选取数据集中若干数据,进行人工标注,利用正则模板对数据集中未经人工标注的数据进行自动标注;
S3:实体识别和关系分类
对标注后的数据,利用预训练语言模型将高维离散空间的词映射到低维连续空间向量,嵌入编码;
利用基于跨度的模型进行跨度识别、过滤和关系分类;
利用基于图的模型将关系分类转化为图分类,引入句法依存关系,从而辅助关系判断分类;
对基于跨度的模型的输出结果和基于图的模型的输出结果进行联合训练,识别数据中包含的实体以及实体间的关系。
进一步地,步骤S2中,对数据进行人工标注时,标注出数据的实体位置信息、实体类型和实体间的关系。
进一步地,步骤S2中,利用正则模板对数据进行自动标注时,预设实体类型与实体间的关系,根据数据集所属领域,利用领域专家的撰写知识编写正则模板,通过模板匹配的方式标注出数据中出预设的实体类型及实体间的关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011021524.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水系全无机固态电解质的制备方法及其应用
- 下一篇:一种切屑液集中供液系统





