[发明专利]一种基于多头注意力的实体关系抽取方法在审
申请号: | 202310031342.9 | 申请日: | 2023-01-10 |
公开(公告)号: | CN116384383A | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 栾宁;赵琳;张震宇;冯曙明;王惠;林勇;曹杰;孙宏亮;汪皓天 | 申请(专利权)人: | 江苏电力信息技术有限公司;云境商务智能研究院南京有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06N3/049;G06N3/08;G06N3/0464 |
代理公司: | 南京汇盛专利商标事务所(普通合伙) 32238 | 代理人: | 陈扬 |
地址: | 210024 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多头 注意力 实体 关系 抽取 方法 | ||
本发明公开一种基于多头注意力的实体关系抽取方法,步骤是:通过Bi‑LSTM获取输入句子的上下文表示;通过多头注意力机制获得句子的全局特征向量以及不同子空间特征;将不同的子空间通过矩阵树定理生成对应的隐藏森林;将全局特征向量和隐藏森林分别通过GCN中编码;再通过池化得到实体和句子向量的最终表示,将全局特征向量和隐藏森林经过卷积计算的全局特征向量进行融合;最后通过全连接层在分类器中进行输出,从而识别实体之间的关系类型。本发明在三个数据集Semeval2010task8、CPR和PGR上测试了该方法,结果表明该方法在实体关系抽取任务中表现出色。
技术领域
本发明涉及数据处理技术领域,涉及一种实体关系抽取方法,具体是一种基于多头注意力的实体关系抽取方法。
背景技术
近些年来,伴随着各方面研究的不断发展,各个领域的文献也越来越多。过多的文献会使得科研工作者们无法轻松的跟踪他们所需要的信息从而影响其研究工作的展开。自然语言处理技术在各个领域都起到了重要的作用。其中关系抽取扮演着重要的角色。因为不同专业领域的文献通常包含很多不同的专业术语,导致数据更加稀疏,它能够捕获专业领域文本中重要实体之间的结构信息。
在早期的工作中已经证明了依赖结构对关系抽取的重要性,利用Graph-LSTM或图神经网络对1-best依赖树编码从而得到更深层次的句法关系。在生物医学领域,近期一些工作将依赖森林作为外部特征,让模型从森林中自动学习到最优的语法结构,这些边由在新闻域上训练的依赖解析器给出,或者通过组合相同的依赖边来合并K-bests树。近期利用完全依赖森林来建立解析器和关系抽取模型的联系。然而森林结果模型在生成完全依赖森林的过程中会产生大量噪声,导致关键信息的丢失从而影响模型的抽取效果。如何充分利用文本信息中的依赖关系,提高实体关系抽取模型的效果,创造实际的应用价值是目前主要的研究问题。
发明内容
本发明的目的是提供一种基于多头注意力的实体关系抽取方法,其实体关系抽取性能较优,鲁棒性强,且其可拓展性强,有效提高信息抽取的准确度。
为了实现对实体关系更加准确的抽取,本发明的解决方案是:
一种基于多头注意力的实体关系抽取方法,其特征在于包括如下步骤:
步骤1,构建训练语料,基于通用领域获得的Glove英文词向量进行训练,获得词向量表示。
步骤2,使用Bi-LSTM编码词向量表示获得句子的上下文表示;
步骤3,通过多头注意力机制获得到句子的全局特征向量以及不同子空间的特征表示;
步骤4,将不同的子空间通过矩阵树定理生成对应的隐藏森林;
所述步骤4中,通过矩阵树定理生成隐藏森林的方法是:
步骤A41,将不同的子空间通过多头注意力来计算各个子空间中对应的边分数和根分数;
步骤A42,将边分数和根分数作为输入,计算每个边的边际概率来生成隐藏森林;
步骤5,将隐藏森林以及句子学习到的全局特征向量放入图卷积神经网络GCN中进行编码,然后分别通过池化操作获得实体和句子的向量表示;
步骤6,将步骤5中的句子向量和步骤3的全局特征向量融合,再和实体向量进入全连接层得到最终向量表示;
步骤7,将步骤6中的最终向量表示通过分类器获取在关系标签上的概率分布,从而识别实体之间的关系类型。
上述步骤2的具体内容是:
我们使用双向长短期记忆机制Bi-LSTM来获得上下文表示,根据下式获得句子的上下文表示h:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏电力信息技术有限公司;云境商务智能研究院南京有限公司,未经江苏电力信息技术有限公司;云境商务智能研究院南京有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310031342.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:提供商品搜索信息的方法及电子设备
- 下一篇:LED芯片的制备方法及LED芯片