[发明专利]一种基于共享语义空间的远程监督关系抽取方法在审
申请号: | 202111513041.7 | 申请日: | 2021-12-11 |
公开(公告)号: | CN114281941A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 姜添;胡岩峰;乔雪;向镐鹏;彭晨;闵飞;潘宇顺;沈红;杨婷 | 申请(专利权)人: | 苏州空天信息研究院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/194;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 封睿 |
地址: | 215000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 共享 语义 空间 远程 监督 关系 抽取 方法 | ||
本发明提出了一种基于共享语义空间的远程监督关系抽取方法,将远程监督标注的数据划分为不含噪数据集和含噪声数据集;将句子的句向量和实体对的位置向量拼接作为BiLSTM网络的输入向量,分别提取含噪声数据集和不含噪数据集中的实体对特征;将实体对特征和关系类型表征映射到同一语义空间中;统计两个关系类型共有的实体类别数量,计算关系类型间的相关度,对不含噪数据集和含噪声数据集分别建模,学习实体对映射矩阵和关系类型映射矩阵;将实体对和关系类型通过学习到的映射矩阵映射到共享语义空间,计算实体对和关系类型的相似度得分,得分最高的关系类型为该实体对的关系。本发明解决了处理复杂关系时存在的语义漂移严重、数据噪声大等问题。
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于共享语义空间的远程监督关系抽取方法。
背景技术
关系抽取是自然语言处理领域一个热点研究方向,目前关系抽取任务普遍存在标注语料不足、语料质量低等情况。利用远程监督技术可以有效解决语料标注问题。但是,使用远程监督标注的语料存在标注错误、数据噪声大等问题。尤其对于复杂关系,如一对实体存在多种关系的情况,语义漂移严重,数据噪声严重影响了关系抽取的结果。在现有技术中,大多数方法使用分段卷积的方式降低数据噪声的影响。例如,一个句子按两个实体切分为前、中、后三部分,然后通过分段池化的方式获得实体对在句子中的结构信息,进而缓解数据噪声的影响。然而上述的方法主要存在两个问题:(1)没有考虑到对存在复杂关系的数据进行重点去噪;(2)笼统对数据集中所有数据去噪,没有对含噪声和不含噪的数据分别建模。上述两个问题是造成远程监督关系抽取结果精度不高的重要原因。
发明内容
本发明的目的在于提出一种基于共享语义空间的远程监督关系抽取方法,以解决传统的远程监督关系抽取在处理复杂关系时,存在的语义漂移严重、数据噪声大等问题。
实现本发明目的的技术解决方案为:一种基于共享语义空间的远程监督关系抽取方法,包括下列步骤:
步骤1.数据集划分
对远程监督标注的数据进行划分,如果实体对在整个数据集中仅存在唯一一种关系,那么将包含该实体对的句子划分为不含噪数据集;如果实体对在整个数据集中存在多种关系,那么将包含该实体对的句子划分为含噪声数据集;
步骤2.提取句子中实体对特征
将句子的句向量和实体对的位置向量拼接作为BiLSTM网络的输入向量,分别提取含噪声数据集和不含噪数据集中的实体对特征;
步骤3.构建实体对和关系类型的共享语义空间
将BiLSTM网络输出的实体对特征和关系类型表征映射到同一语义空间中;
步骤4.学习共享语义空间映射矩阵
统计两个关系类型共有的实体类别数量,计算关系类型间的相关度,根据假设1“不含噪数据集中句子实体对与真实关系类型之间的相似度大于和其他关系类型之间的相似度”和假设2“含噪声数据集中实体对与候选关系类型之间的相似度大于和其他非候选关系类型之间的相似度”对不含噪数据集和含噪声数据集分别建模,学习实体对映射矩阵和关系类型映射矩阵;
步骤5.关系抽取
提取句子中实体对特征,将实体对和关系类型通过学习到的映射矩阵映射到共享语义空间,计算实体对和关系类型的相似度得分,得分最高的关系类型为该实体对的关系。
进一步的,步骤1中,数据集之间的关系表示为:
s=sc∪sn (1)
其中,sc表示不含噪数据集,sn表示含噪声数据集,s表示远程监督标注的数据结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州空天信息研究院,未经苏州空天信息研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111513041.7/2.html,转载请声明来源钻瓜专利网。