[发明专利]一种基于图神经网络的关系抽取方法在审
申请号: | 202110563551.9 | 申请日: | 2021-05-21 |
公开(公告)号: | CN113297838A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 莫益军;姚盛楠 | 申请(专利权)人: | 华中科技大学鄂州工业技术研究院;华中科技大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 张晓冬 |
地址: | 436044 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 关系 抽取 方法 | ||
一种基于图神经网络的关系抽取方法,所述方法包括步骤:对待抽取文档进行数据处理;构建所述文档中句子的模型数据集;获取所述句子的语义特征向量;根据所述数据处理结果和所述语义特征向量生成所述句子的实体间邻域信息表达;根据所述实体间邻域信息表达强化所述句子的句子表达;根据所述数据处理结果和所述句子表达获取所述句子的句子池化表达和主客体池化表达;将所述句子池化表达和所述主客体池化表达进行级联表示;根据所述级联表示获取所述句子的关系类别表示。本申请通过改进权重矩阵获取多阶单词的关联关系同时融合注意力机制对文本内容进行建模,以获取语义间完整的依赖关系,达到更好的关系分类效果。
技术领域
本发明属于关系抽取技术领域,具体涉及一种基于图神经网络的关系抽取方法。
背景技术
关系抽取意在捕获非结构化句子中标记实体对之间的语义关系,在自然语言处理任务中发挥着重要作用,例如创建新的结构化知识库并且增强现有知识库和构建垂直领域知识图谱,同时在支持上层应用中也有着重要的作用,例如:问答系统、关系推理、搜索等。关系抽取任务通常发生在特定的两个或多个实体之间,最终将关系定义到已有的某个关系类别中。一个好的关系抽取模型可以帮助对文本内容进行深入理解。
现有的关系抽取模型大多是基于深度学习的,如RNN、CNN及其改进模型。关系抽取模型以文本序列为输入,通过特征提取器获取句子表示和词级表示,最后通过分类器获得实体间的关系类别。在提取关系的过程中句子中的谓语通常非常重要,这也意味着如果实体和谓语的距离太远可能导致关键信息的丢失。为解决这一问题,往往采用依赖树来获取句子远距离信息依赖,并简化复杂句子,完成核心信息提取。早期往往使用LSTM应用于最短路径的单词序列,有学者提出DepNN应用RNN提取子树特征,CNN提取最短路径特征,但这些模型直接运行在依赖树,由于依赖树往往难以对齐来实行批处理训练,故而并行训练困难,计算效率低。
发明内容
鉴于上述问题,本发明提供克服上述问题或者至少部分地解决上述问题的一种基于图神经网络的关系抽取方法。
为解决上述技术问题,本发明提供了一种基于图神经网络的关系抽取方法,所述方法包括步骤:
对待抽取文档进行数据处理;
构建所述文档中句子的模型数据集;
获取所述句子的语义特征向量;
根据所述数据处理结果和所述语义特征向量生成所述句子的实体间邻域信息表达;
根据所述实体间邻域信息表达强化所述句子的句子表达;
根据所述数据处理结果和所述句子表达获取所述句子的句子池化表达和主客体池化表达;
将所述句子池化表达和所述主客体池化表达进行级联表示;
根据所述级联表示获取所述句子的关系类别表示。
优选地,所述对待抽取文档进行数据处理包括步骤:
获取所述待抽取文档;
对所述待抽取文档中的句子进行数据清洗操作;
对所述句子进行分词操作;
提取所述句子的依存句法关系信息;
获取所述句子的主客体位置信息。
优选地,所述对所述待抽取文档中的句子进行数据清洗操作包括步骤:
将所有所述句子统一为同一预设格式;
删除所有所述句子中的无用段落;
删除所有所述句子中的异样字符;
删除所有所述句子中的重复内容;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学鄂州工业技术研究院;华中科技大学,未经华中科技大学鄂州工业技术研究院;华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110563551.9/2.html,转载请声明来源钻瓜专利网。