[发明专利]实体关系联合抽取方法及电子设备在审
申请号: | 202111509942.9 | 申请日: | 2021-12-10 |
公开(公告)号: | CN114357179A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 高大林;姜伟浩;陈诚;龙铭刚 | 申请(专利权)人: | 杭州海康威视数字技术股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332;G06K9/62 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 杨春香 |
地址: | 310051 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 关系 联合 抽取 方法 电子设备 | ||
本申请提供了实体关系联合抽取方法及电子设备。本申请实施例中,在从目标文本抽取实体关系时,需要依赖于用于反映实体之间关联信息的句子依存分析树,并在预测出目标文本中的潜在三元组后基于句子依存分析树以及全局主客实体对约束矩阵生成模型对潜在三元组进行筛减,以过滤掉冗余三元组,得到最终真实的实体关系三元组信息,这提高了实体关系抽取结果的准确度,并有效解决错误累积、冗余实体以及重叠关系等问题。
技术领域
本申请涉及自然语言处理技术,特别涉及实体关系联合抽取方法及电子设备。
背景技术
实体关系抽取是从非结构化文本中自动抽取出主实体和客实体之间的关系。这里,非结构化文本是由一些具体的单位构成。这里的具体单位例如为句子、段落、篇章等,或者为一些小的单位比如字、词、词组等。
目前常用的实体关系联合抽取方法,往往只关注中文汉字的字形特征之间的相似性,没有充分考虑实体之间的关联信息,实体关系抽取结果不准确。
发明内容
本申请提供了实体关系联合抽取方法及电子设备,以提高实体关系抽取结果的准确度。
本申请实施例提供了一种实体关系联合抽取方法,该方法应用于电子设备,包括:
依据目标文本、以及外部知识信息确定第一特征向量;所述外部知识信息是在已配置的知识库中获得的与目标文本相匹配的信息;所述第一特征向量通过融合所述目标文本和外部知识信息的特征信息得到;
将基于所述目标文本得到的句子依存分析树转化为邻接矩阵,将所述邻接矩阵和编码输出结果输入至图注意力神经网络得到第二特征向量;所述句子依存分析树用于表征所述目标文本的句子结构,所述编码输出结果是对输入特征进行编码处理得到的,所述输入特征据所述目标文本的分词结果和词性识别结果确定;
预测所述目标文本中的潜在三元组;每一潜在三元组中包括潜在关系、潜在关系对应的一个主实体和一个客实体;
基于所述第一特征向量和所述第二特征向量并通过已训练的全局主客实体对约束矩阵生成模型,预测目标文本对应的全局主客实体对约束矩阵;全局主客实体对约束矩阵表征了目标文本中主实体和客实体之间的对应关系;
利用所述全局主客实体对约束矩阵从潜在三元组中提取目标三元组。
本申请实施例还提供了一种电子设备。该电子设备包括:处理器和机器可读存储介质;
所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;
所述处理器用于执行机器可执行指令,以实现上述公开的方法的步骤。
通过以上技术方案可以看出,在本实施例中,在从目标文本抽取实体关系时,需要依赖于用于反映实体之间关联信息的句子依存分析树,并在预测出目标文本中的潜在三元组后基于句子依存分析树以及全局主客实体对约束矩阵生成模型对潜在三元组进行筛减,以过滤掉冗余三元组,得到最终真实的实体关系三元组信息,这提高了实体关系抽取结果的准确度,并有效解决错误累积、冗余实体以及重叠关系等问题;
进一步地,在本实施例中,在从目标文本抽取实体关系时,需要联合目标文本和目标文本相匹配的外部的知识信息,这能保证抽取出具有全面的实体关系三元组信息;
进一步地,在本实施例中,在从目标文本抽取实体关系时还依赖于外部知识信息,句子结构信息以及词性信息,这能有效降低中文分词边界较难识别的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请实施例提供的方法流程图;
图2为本申请实施例提供的第一特征向量示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111509942.9/2.html,转载请声明来源钻瓜专利网。