[发明专利]一种面向知识图谱构建的实体关系抽取方法及系统在审
申请号: | 202210049823.8 | 申请日: | 2022-01-17 |
公开(公告)号: | CN114491066A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 谭杰骏;王建军;金晓伟;郭官峰;胡文斌 | 申请(专利权)人: | 郑州锲颖信息科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/194;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 肖明洲 |
地址: | 450053 河南省郑州市金*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 知识 图谱 构建 实体 关系 抽取 方法 系统 | ||
本发明公开了一种面向知识图谱构建的实体关系抽取方法及系统,首先获取领域中非结构化文本,并进行数据预处理,标注文本中出现的实体、实体类型和实体之间的关系,得到训练数据;然后构建神经网络模型;并将训练数据输入神经网络模型进行训练,分别训练成为实体类型分类模型,实体关系类型分类模型;最后将实体类型分类模型和实体关系分类模型关联起来整体运作,对新数据先鉴定实体类型再在此基础上抽取实体关系。本发明不仅摆脱了人工设计提示词,也保证了跨数据集和跨领域的灵活性。通过对实体类别进行预分类,缩小了实体关系的分类范围,提升了关系分类的准确度。本发明能够适应随机初始化的提示词所带来的影响,而且收敛更快,准确度跟高。
技术领域
本发明属于计算机科学、语言学和机器学习技术领域,涉及一种面向知识图谱构建的实体关系抽取方法及系统。
背景技术
知识图谱能够组织一个领域或多个领域内的数据,并且有效应用于分析和推理。但是知识图谱有结构化的包含实体关系的三元组组成,并且要求能动态地从新数据中学习和更新知识。显然,人工从非结构化数据中整理实体关系非常的繁重且不切实际。现有的研究针对从非结构化文本种提取包含实体关系的三元组普遍采用先进行实体抽取再进行关系分类的两步策略。相较于实体抽取,关系分类信息更隐蔽,变量更多因而准确度也更低。现有方法在抽取给定实体的关系的时候存在两个主要问题:使用人工设计的提示词而削弱了方法的灵活性也增加了人工劳动的强度;在关系分类过程面对众多类别而降低了分类的准确性。本文提出了一种面向知识图谱构建的实体关系抽取方法,通过对实体预分类构建双层关系分类模型,提升了关系分类的准确度。此方法同时可以在随机初始化的提示词下依然保持着优良的性能,摆脱了对人工设计提示词的依赖。
为了解决实体关系抽取问题,2017年Zhang等人使用RNN,2018年Zhang等人使用GCN来处理文本序列。但是,当上下文序列变长时,这些传统方法表现不佳。最近,基于多头注意力预训练语言模型如BERT,已广泛应用于各种下游NLP任务,并且在处理长序列方面表现优异。通过大规模无监督预训练,预训练语言模型掌握了丰富的语义或语法知识。Ernie和Delvin通过使用下游训练数据微调预训练语言模型,并应用在实体关系抽取。然而,与预训练阶段固定的任务模式相比,RC模型需要学习基于注释数据的分类标准。PLM和RC之间的这种差距限制了PLM在RC中实现更好的性能。
为了缩小PLM和RC之间的差距,一些研究人员试图调整预训练语言模型的结构。Joshi等人设计了SpanBERT加长单词掩盖器,使被掩盖的单词可以包含更多的信息,而最近Tong等人通过添加实体类型限制进一步提高了SpanBERT的性能。Peter等人将知识图谱融入了预训练语言模型。Yamada等人则在预训练阶段引入了包含实体类型的词嵌入。但是,这些对预训练语言模型的调整忽略了一个关键问题:句子通常包含的噪声信息比两个给定实体之间的关系信息多得多。如果没有适当的方法来关注关键信息,这些方法很容易受到噪音的影响。
同时,利用prompt的预训练语言模型微调范式被发现是改造下游任务以适应预训练语言模型的有效方法,Brown等人,Liu等人,Schick等人,Gao等人都做出了尝试。Liu等人在文献综述中将这一范式概括为预训练、提示词和预测。利用提示词的预训练语言模型微调范式在原始序列的末尾附加了一个简短的文本提示,以此来操纵预训练语言模型的行为,并诱导它产生预期输出,同时减少噪声信息造成的干扰。Han等人最先把提示词引入到实体关系抽取。他们基于逻辑规则,将提示词被分解成手动设计的子提示词。随后Chen等人使用连续的提示词与知识注入。
而现有方法在利用prompt抽取的信息的时候没有考虑到标准词向量和空缺词的预测词向量的关联,而且在关系分类过程中面对众多类别而降低了分类的准确性。另外使用人工设计的标准词向量代表类别,不仅削弱了方法的灵活性导致不容易迁移到其他数据集,也增加了人工劳动的强度。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州锲颖信息科技有限公司,未经郑州锲颖信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210049823.8/2.html,转载请声明来源钻瓜专利网。