[发明专利]基于门控机制和图注意力网络的中文实体关系抽取方法在审

专利信息
申请号: 202210281501.6 申请日: 2022-03-21
公开(公告)号: CN114722820A 公开(公告)日: 2022-07-08
发明(设计)人: 戚荣志;赵小涵;李水艳;毛莺池;黄倩;高逸飞;陈子琦 申请(专利权)人: 河海大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/30;G06F40/211;G06F40/289;G06F16/35;G06N3/04;G06N3/08
代理公司: 南京乐羽知行专利代理事务所(普通合伙) 32326 代理人: 李玉平
地址: 211100 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 门控 机制 注意力 网络 中文 实体 关系 抽取 方法
【说明书】:

发明公开了一种基于门控机制和图注意力网络的中文实体关系抽取方法,首先,使用中文BERT预训练模型将文本转换为机器可以识别的向量形式;其次,将实体嵌入拼接到每个词嵌入后面,采用一种全局信息门控机制,计算门控向量,实现词嵌入的实体语义强化;然后,对文本进行依存句法分析,获得依存句法树,构造出邻接矩阵、依赖类型矩阵和依赖方向矩阵,使用掩码自注意力求得注意力权重矩阵,进而在图注意力网络中对文本进行特征提取;最后,从图注意力网络的输出中,获取两个实体和句子的表征向量,经过多层感知机将该向量转换到分类空间,输入至分类器中完成关系分类。

技术领域

本发明涉及一种基于门控机制和图注意力网络的中文实体关系抽取方法,属于面向中文的信息抽取领域。

背景技术

近年来,互联网迎来蓬勃发展,大量的信息充斥于网络中,人类进入大数据时代。在这个海量信息的时代,如何快速获取重要的信息成为迫切需要解决的问题,信息抽取技术(Information Extraction,IE)就是服务于该问题而被提出的,其作为一项解放人力的技术,目的是从半结构化或非结构化的文本中自动高效地提取出特定、有价值的信息,并将这些信息以合理的结构保存在存储媒介中。命名实体识别(Named Entity Recognition,NER)、关系抽取(Relation Extraction,RE)和事件抽取(Event Extraction)是信息抽取的重要子任务。

关系抽取方法可以分为基于传统机器学习的方法和基于深度学习的方法。基于机器学习的方法有基于特征向量的和基于核函数的两种方法,前者过于依赖人工设计的特征和自然语言分析工具,后者具有过高的时间复杂性。基于深度学习的方法提出了一种端到端的关系分类方法,依托神经网络的学习能力自动提取句子的分类特征,是当前关系抽取技术的热点研究方向。

面向中文的实体关系抽取技术具有巨大的研究价值。国内各行各业的专业文本数据,以及中文互联网上的文本信息数量是一个难以估量的天文数字,依靠纯人工的方式对这些数据进行整合梳理是难以完成的一项事情,并且网络无时无刻不在产生着数据,为了实现可持续发展的目标,只有将这种高效的计算机技术应用于中文信息领域,才能使所有的信息得到妥善应用。

发明内容

发明目的:针对现有技术中存在的技术问题,提供一种基于门控机制和图注意力网络的中文实体关系抽取方法。

技术方案:一种基于门控机制和图注意力网络的中文实体关系抽取方法,具体步骤如下:

步骤1)使用中文BERT预训练模型将文本转换为机器可以识别的向量形式;

步骤2)将句子中用于分类的实体嵌入拼接到每个词嵌入后面,采用一种全局信息门控机制,计算门控向量,实现词嵌入的实体语义强化;

步骤3)对文本进行依存句法分析,获得依存句法树,构造出邻接矩阵、依赖类型矩阵和依赖方向矩阵,使用掩码自注意力求得注意力权重矩阵,进而在图注意力网络中对文本句子进行特征提取;

步骤4)从图注意力网络的输出中,获取两个实体和句子的表征向量,经过多层感知机将该表征向量转换到分类空间,输入至分类器中完成关系分类。

进一步的,所述步骤1)的使用中文BERT预训练模型将文本转换为机器可以识别的向量形式,即文本到词向量;包含以下过程:

1-1)将句子s分割为一个字序列,然后调用BERT预训练模型将字序列向量化,形成字向量序列{c1,c2,…};

1-2)采用现成的自然语言处理工具将句子进行分词得到词序列;

1-3)利用第一步的字向量序列{c1,c2,…},将词序列初始化为词向量序列{v1,v2,…},规则为,词向量是其所包含字的向量的加和求平均。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210281501.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top