[发明专利]一种基于PGAT和FTATT的远程监督关系抽取方法有效
| 申请号: | 202011528527.3 | 申请日: | 2020-12-22 |
| 公开(公告)号: | CN112579792B | 公开(公告)日: | 2023-08-04 |
| 发明(设计)人: | 于亚新;包健;王亚龙;吴晓露;乔勇鹏;刘树越 | 申请(专利权)人: | 东北大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/28;G06F40/211;G06F40/253;G06F40/284;G06F40/30;G16H50/70;G06N3/042;G06N3/0442;G06N3/045;G06N3/0464 |
| 代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 梁焱 |
| 地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 pgat ftatt 远程 监督 关系 抽取 方法 | ||
1.一种基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,所述PGAT为Piecewise Graph Attention Network,分段图注意力网络;所述FTATT为Fine-tuningAttention Mechanism,微调注意力机制;该方法包括以下步骤:
步骤1:获取NYT数据集,根据远程监督关系抽取条件假设,将NYT数据集中包含相同实体对的句子划分在一个包中;
步骤2:获取每个包中句子的词语向量表示;
步骤3:根据词语向量表示,抽取包中每个句子的特征向量表示;
步骤3-1:基于Bi-LSTM抽取句子的序列特征,将句子的词语向量表示w送入Bi-LSTM网络,获取句子的序列特征;
步骤3-2:融合句子的序列特征,基于分段图注意力网络PGAT抽取句子的句法结构特征;
步骤4:采用微调注意力机制FTATT对同一包中的不同句子分配权重;
步骤4-1:利用注意力机制ATT求出各包中不同句子的初始的权重系数;
步骤4-2:对初始的权重系数进行微调,得到新的权重系数;
步骤5:将包中各句子的特征向量与句子的权重系数加权求和,获得该包的特征向量;
步骤6:根据包的特征向量,对包中实体对进行关系分类;
所述步骤3-2包括以下步骤:
步骤3-2-1:对输入的句子进行句法依存分析,得到该句子中词与词之间具有依存关系的依存句法树;
步骤3-2-2:根据句子中标注的实体,将依存句法树截为三段:实体之间的最短依存路径树及两个实体各自的子树;
步骤3-2-3:将步骤3-2-2得到的三段依存句法树分别用依存矩阵表示,其中依存矩阵主对角线上的值均为1,除此之外,句子中的词与该词以外的其他词在树结构上有依存关系的,在依存矩阵上对应的值记为1,否则记为0;
步骤3-2-4:将三段依存句法树的依存矩阵分别送入图注意力网络,抽取句子的句法结构特征,分别得到实体最短依存路径特征向量和两个实体子树特征向量;
步骤3-2-5:将三个子树特征向量结合送入前馈神经网络FFNN,得到句子的最终特征向量。
2.根据权利要求1所述的基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,所述步骤2中所述词语向量表示的获取方法为:
通过Word2vec模型获取句子中词语的词嵌入;
将从当前单词到实体对中两个实体的相对距离的组合作为当前单词的位置嵌入;
将词嵌入和位置嵌入结合,作为当前词的词语向量表示。
3.根据权利要求1所述的基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,所述步骤3-2-4中图注意力网络对送入其中的依存矩阵执行如下步骤:
首先,计算词与词之间相互影响的重要程度;
然后,根据词与词之间相互影响的重要程度,计算词与词之间的注意力权重系数;
最后,将词在依存矩阵中所有相邻词的序列特征向量与对应的相邻词的权重系数进行加权求和,得到该词的最终特征向量;所述相邻词为矩阵中值为1对应的词。
4.根据权利要求1所述的基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,所述步骤4-1包括以下步骤:
计算输入的句子和关系之间匹配的分数;
根据句子和关系的匹配分数,求得注意力机制下用于加权求和的句子权重系数。
5.根据权利要求1所述的基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,所述步骤4-2中通过阈值θ对初始的权重系数αi进行微调得到新的权重系数αi_new,微调公式如下:
其中n为包中句子总个数,k代表包中第k个句子。
6.根据权利要求5所述的基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,所述阈值θ为超参数,设置为0.100。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011528527.3/1.html,转载请声明来源钻瓜专利网。





