[发明专利]双向GRU关系抽取数据处理方法、系统、终端、介质有效

专利信息
申请号: 202110261757.6 申请日: 2021-03-10
公开(公告)号: CN112800776B 公开(公告)日: 2023-04-18
发明(设计)人: 陈建峡;陈煜;张杰;刘畅;刘琦 申请(专利权)人: 湖北工业大学
主分类号: G06F40/30 分类号: G06F40/30;G06F21/60;G06F40/242;G06F40/289;G06F18/22;G06F18/2415;G06N3/047;G06N3/049;G06N3/045;G06N3/08
代理公司: 北京金智普华知识产权代理有限公司 11401 代理人: 蓝晓玉
地址: 430068 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 双向 gru 关系 抽取 数据处理 方法 系统 终端 介质
【权利要求书】:

1.一种基于关键词注意力的双向GRU关系抽取数据处理方法,其特征在于,所述基于关键词注意力的双向GRU关系抽取数据处理方法包括以下步骤:

步骤一,对基准数据集进行预处理;

步骤二,对步骤一预处理后的语料进行词向量化;

步骤三,通过多头注意力机制对步骤二的词向量进行初步去噪处理;

步骤四,使用Bi-GRU网络层对步骤三处理过的词向量进行编码,得到包含句子中的上下文信息的隐藏层向量;

步骤五,将步骤四的隐藏层向量作为输入,传递至多头注意力层中,通过将隐藏层输出结合实体对相对位置特征以及实体隐藏相似度特征,计算出关键词注意力权重;

步骤六,将经过步骤五关键词注意力机制处理过的隐藏层向量输入至分类层,得到最终的关系抽取结果;

所述步骤一预处理包括:

将原始文件中的原始句子以及关系标签进行处理生成完整的句子字典和标签字典,并将编码修改为UTF-8编码;去除句子中的标点符号以及重复句子和符号;使用NLTK对数据集中的文本进行分词处理;

所述步骤二进行词向量化包括:将分好词的语料使用预训练的ELMo模型进行词向量的转化;

ELMo模型的输入层旨在将输入句子的语义信息和位置信息转换为向量,其中输入句子用表示,表示每个词与实体对的相对位置的向量;

采用维的从ELMo词嵌入预训练模型得到的词向量,ELMo模型根据上下文推断出每个词对应的词向量;对于多义词加入了前后词的上下文理解;

所述预训练模型的训练方法采用随机梯度下降法训练,关键词注意力机制使用交叉熵损失函数进行计算,所述损失函数的定义如以下公式所示:

其中,是训练数据集的大小,是数据集中的第i个样本,采用AdaDelta优化器来最小化loss函数计算参数;

在损失函数中加入L2正则化以防止过拟合,,是正则化的超参数;第二个正则化器试图强制预训练模型处理真正重要的单词,并返回稀疏的权重分布;最终目标函数如以下等式所示:

所述步骤三多头注意力机制通过输入层输出的词向量序列构建序列的对称相似性矩阵;

所述多头注意力机制包括:给定密钥K、查询Q和值V作为输入,相当于词嵌入向量,输出结果是一个具有输入句子上下文信息的特征序列;其中,关注模块将执行关注h次,计算过程如以下公式所示:

其中,, , , 是线性变换的可学习参数,是按比例计算和串联时按比例放缩点积注意力的输出,, , 分别表示第i个头的查询、键和值;

所述步骤四Bi-GRU网络层用于获取多头注意力层输出序列的上下文信息;在信息提取的任务中,RNN是使用最多的模型;LSTM相对于RNN引入了长期记忆和门结构,缓解RNN长期去依赖性的问题,但同时也增加模型的计算量;而GRU则进一步优化LSTM,只保留new gate和reset gate两个门操作;

将GRU单元对的处理记为,获得用于计算上下文单词表示的等式如以下公式所示:

Bi-GRU的输入是多头注意力层的输出,逐级输入到网络中;将每一时间步中的前向GRU网络隐藏状态,与后向GRU网络隐藏状态进行并联,其中为GRU网络单元隐藏状态的维度,用表示每一个词的隐藏状态向量,并用箭头表示方向;

所述步骤五关键词注意力机制用于对隐藏层向量进行软选择,为一组标量的线性组合,权值用来表示预训练模型对句子中某个词的关注程度,取值在0到1之间;

为每个词引入一个二元状态变量z,当z为0时,表示对应的词与关系分类无关,如果z为1,则表示对应的词是句子中关系表达所需的词;每个句子都有对应的二元状态变量序列Z;隐藏状态的期望值N为对应词被选中的概率,关键词注意力权重计算方法如以下公式所示:

引入CRF来计算隐藏序列的权重序列,推导出,代表输入序列,代表第i个词的GRU的隐藏输出; CRF为一个概率框架,用于计算序列与序列之间的条件概率;

CRF定义在给定的情况下一系列条件概率,如以下公式所示:

其中,表示二元状态变量z的集合,是规范化常数,表示单个集合c给出的z的子集,是该集合的潜在函数,用以下等式表示:

使用两种特征函数进行计算,顶点特征函数和边缘特征函数;表示GRU的输出h到二元状态变量z的映射,而是用于模拟两个状态变量在相邻时间步长的转换函数,分别如以下公式所示:

其中,和 为线性变换的可学习参数,b为偏置项;将句子中的上下文信息映射成每个状态变量的特征分数,所述特征分数利用句子中的实体对相对位置特征以及关键词特征,实体对特征,和实体隐藏相似度特征和来计算;

(1)实体对相对位置特征

实体对相对位置特征,用于通过与隐藏层的输出量的连接来共同重新表示上下文信息以及实体位置关系;其中,;位置嵌入与词嵌入类似,通过嵌入矩阵将相对位置标量转化为向量;其中L为最大句长,为位置向量的维度;

(2)实体隐藏相似度特征

根据实体与其隐藏向量的相似性对实体进行分类;实体隐藏相似度特征计算过程如以下公式所示:

其中,是在势向量空间中构造的一个势向量,用来表示相似实体的类;K是实体按其隐藏相似性分类的类数;第j个实体的实体隐藏相似度特征是根据第j个实体与隐藏层的输出的相似度加权计算出来的;实体特征是通过对实体位置和实体对的潜在类型表示对应的隐藏状态进行级联构建;

所述步骤六分类层,包括:

计算状态变量的输出分布的概率p,在注意力层之后添加softmax层,计算过程如以下公式所示:

其中,是偏差项,是关系类别的数量,将隐藏状态的期望值N映射到关系标签的特征分数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110261757.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top