[发明专利]一种基于共享语义空间的远程监督关系抽取方法在审
申请号: | 202111513041.7 | 申请日: | 2021-12-11 |
公开(公告)号: | CN114281941A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 姜添;胡岩峰;乔雪;向镐鹏;彭晨;闵飞;潘宇顺;沈红;杨婷 | 申请(专利权)人: | 苏州空天信息研究院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/194;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 封睿 |
地址: | 215000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 共享 语义 空间 远程 监督 关系 抽取 方法 | ||
1.一种基于共享语义空间的远程监督关系抽取方法,其特征在于,包括下列步骤:
步骤1.数据集划分
对远程监督标注的数据进行划分,如果实体对在整个数据集中仅存在唯一一种关系,那么将包含该实体对的句子划分为不含噪数据集;如果实体对在整个数据集中存在多种关系,那么将包含该实体对的句子划分为含噪声数据集;
步骤2.提取句子中实体对特征
将句子的句向量和实体对的位置向量拼接作为BiLSTM网络的输入向量,分别提取含噪声数据集和不含噪数据集中的实体对特征;
步骤3.构建实体对和关系类型的共享语义空间
将BiLSTM网络输出的实体对特征和关系类型表征映射到同一语义空间中;
步骤4.学习共享语义空间映射矩阵
统计两个关系类型共有的实体类别数量,计算关系类型间的相关度,根据假设1“不含噪数据集中句子实体对与真实关系类型之间的相似度大于和其他关系类型之间的相似度”和假设2“含噪声数据集中实体对与候选关系类型之间的相似度大于和其他非候选关系类型之间的相似度”对不含噪数据集和含噪声数据集分别建模,学习实体对映射矩阵和关系类型映射矩阵;
步骤5.关系抽取
提取句子中实体对特征,将实体对和关系类型通过学习到的映射矩阵映射到共享语义空间,计算实体对和关系类型的相似度得分,得分最高的关系类型为该实体对的关系。
2.根据权利要求1所述的基于共享语义空间的远程监督关系抽取方法,其特征在于,步骤1中,数据集之间的关系表示为:
s=sc∪sn (1)
其中,sc表示不含噪数据集,sn表示含噪声数据集,s表示远程监督标注的数据结果。
3.根据权利要求1所述的基于共享语义空间的远程监督关系抽取方法,其特征在于,步骤2中,位置向量是指句子中每个词与两个实体的位置距离的向量化表示。
4.根据权利要求1所述的基于共享语义空间的远程监督关系抽取方法,其特征在于,步骤3中,将句子中实体对特征向量映射在共享语义空间中的公式是:
φM(mi)=Umi (2)
将关系类型向量映射到共享语义空间中的公式是:
φY(yk)=Vyk (3)
其中,U和V分别表示共享语义空间中句子实体对特征向量和关系类型向量的映射矩阵,mi表示第i个实体对特征的向量表示,yk表示第k个关系类型的向量表示,φM(.)和φY(.)分别表示实体对特征和关系类型的映射函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州空天信息研究院,未经苏州空天信息研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111513041.7/1.html,转载请声明来源钻瓜专利网。