[发明专利]一种基于PGAT和FTATT的远程监督关系抽取方法有效
| 申请号: | 202011528527.3 | 申请日: | 2020-12-22 |
| 公开(公告)号: | CN112579792B | 公开(公告)日: | 2023-08-04 |
| 发明(设计)人: | 于亚新;包健;王亚龙;吴晓露;乔勇鹏;刘树越 | 申请(专利权)人: | 东北大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/28;G06F40/211;G06F40/253;G06F40/284;G06F40/30;G16H50/70;G06N3/042;G06N3/0442;G06N3/045;G06N3/0464 |
| 代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 梁焱 |
| 地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 pgat ftatt 远程 监督 关系 抽取 方法 | ||
本发明公开一种基于PGAT和FTATT的远程监督关系抽取方法,涉及远程监督关系抽取技术领域。该方法包括:获取NYT数据集,将数据集中包含相同实体对的句子划分在一个包中;获取每个包中句子的词语向量表示;基于Bi‑LSTM抽取句子的序列特征;基于PGAT抽取句子的句法结构特征;利用FTATT对包中不同句子分配权重;将包中各句子的特征向量与句子的权重系数加权求和,获得包的特征向量;根据包的特征向量,对包中实体对进行关系分类。利用PGAT能够捕获句子的句法结构信息,使得抽取的句子特征包含语义和语法方面的丰富信息,同时采用FTATT对注意力机制进行微调,动态地丢弃尽可能多的噪音数据,提高关系抽取准确性。
技术领域
本发明涉及远程监督关系抽取技术领域,具体涉及一种基于PGAT(PiecewiseGraph Attention Network,分段图注意力网络)和FTATT(Fine-tuning AttentionMechanism,微调注意力机制)的远程监督关系抽取方法。
背景技术
知识图谱近些年在医疗领域应用广泛,根据患者症状从医疗知识图谱中匹配症状的实体,实体之间以关系作为边相连接,例如药物治疗、注意事项、相关症状等关系,可以深层次地挖掘患者症状所对应的疾病以及相应的治疗措施。例如,一名患者存在运动迟缓、动作变慢、痉挛、乏力、痴呆、抑郁症等症状及体征,在医疗知识图谱中,这些症状实体对应的疾病实体正是帕金森病。图谱中由(实体,关系,实体)构成实体关系三元组,例如(帕金森病,药物治疗,恩他卡朋)和(恩他卡朋,注意事项,不可突然停用本品)。根据三元组及患者症状,可以挖掘出该患者可能身患帕金森病,需要使用恩他卡朋进行药物治疗,并叮嘱该患者不能随意停用药物,需要缓慢减量停药。
关系抽取是知识图谱构建过程的核心任务。关系抽取是指在实体识别的基础之上从非结构化文本句子中抽取预先定义的实体对之间的关系,也称为实体关系抽取。对一个句子进行关系抽取的结果可以形式化为一个关系三元组(e1,r,e2),e1、e2表示实体,r表示两个实体之间的关系。关系抽取的大量研究工作都集中在有监督学习方法中。有监督的关系抽取需要大量具有特定标注关系的训练数据进行训练,训练数据的标注非常耗时同时人力耗费巨大。在这种情况下,采用远程监督方法进行关系抽取应运而生,其中关系特征设计对远程监督关系抽取的后续错误句子标签的筛选具有重要的作用。现有的研究工作通常使用卷积神经网络对文本句子进行编码,仅是在文本序列上进行特征抽取、关系抽取的效果并不理想,在关系抽取中没有将在依存句法树上体现的语法信息与文本序列中的语义信息有效地融合。
远程监督方法通过自动对齐远程知识库代替人工标注生成训练数据。但是存在一个强假设条件,即如果两个实体在某一个知识库中存在某种关系,那么所有包含这两个实体的文本句子都视为这个关系的正实例。这样会导致大量的标签标注错误,产生噪声数据。为了解决错误标注问题,现有的研究工作采用多实例学习、注意力机制解决噪声问题。尽管如此,噪声数据对关系抽取性能影响仍然较大。当同一实体对包含的噪声数据越多,性能影响就越明显。
发明内容
在现有的远程监督关系抽取方法中,考虑抽取句子的序列特征信息作为句子的特征表示,这样无法充分地表示句子的语义和语法信息,同时现有的方法在面对句子标签错误标注问题上采用多实例学习和注意力机制处理,但是噪声句子的影响依旧很大,需要进一步优化解决。针对现有技术的不足,本发明提出一种基于分段图注意力网络和微调注意力机制的远程监督关系抽取方法,旨在抽取丰富的句子特征的同时尽可能多地丢弃噪声句子,从而提高关系抽取的准确性。
为解决上述技术问题,本发明的基于PGAT和FTATT的远程监督关系抽取方法,包括以下步骤:
步骤1:获取NYT数据集,根据远程监督关系抽取条件假设,将NYT数据集中包含相同实体对的句子划分在一个包中;
步骤2:获取每个包中句子的词语向量表示;
步骤3:根据词语向量表示,抽取包中每个句子的特征向量表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011528527.3/2.html,转载请声明来源钻瓜专利网。





