[发明专利]一种基于多种实体上下文的实体对齐方法有效
申请号: | 202110346496.8 | 申请日: | 2021-03-31 |
公开(公告)号: | CN112988917B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 吴天星;李林;漆桂林 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/36;G06F40/216;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 张天哲 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多种 实体 上下文 对齐 方法 | ||
1.一种基于多种实体上下文的实体对齐方法,其特征在于,该方法包括以下步骤:
1)首先,利用TransE从知识图谱关系三元组中学习出实体的一跳结构信息;给定一个关系三元组tr=(head,rel,tail),其中head和tail表示实体,rel表示关系,使用首字母h、t和r分别代表其向量表示,那么TransE尽量使h+r≈t,即评分函数尽量小;在学习过程中,为了增强知识表示的区分能力,采用最大间隔法,并定义了以下目标函数:
其中,γ为正样本的评分与负样本的评分之间的间隔,G是合法三元组正样本的集合,即用于训练的三元组集合,G′为错误的三元组负样本的集合,E代表知识图谱中所有实体的集合;负样本是通过对正样本进行负采样得到的,具体过程是将正样本的头实体或尾实体随机替换为另一个实体而获得的,分别对应公式中h′、t′,负样本采样如下面公式所示:
利用RDF2Vec从知识图谱关系三元组中学习实体的多跳结构信息,将知识图谱看成由无数条实体关系路径构成网络结构,通过图随机游走算法,每次采样出一条或多条实体关系路径,再利用Skip-Gram模型进行学习,将实体和关系表示成低维稠密的向量;
2)其次,利用GCN模型学习属性三元组中实体的结构信息和内容信息;给定一个属性三元组tv=(h,r,v),其中h和t表示实体,v表示关系,那么,关于某个特定实体的所有属性三元组可以看成是以实体为中心的星状图结构,利用GCN提取星状图的信息;
星状图的顶点特征矩阵H0∈Rnxd,其中n是节点的数目,d是特征的数目,输出是汇集了实体属性信息和属性值信息的新特征矩阵H1;
其中,σ是一个激活函数,是一个n×n连通性矩阵,表示图的结构信息;I是一致性矩阵;D是A的对角度矩阵;W∈Rd×d′是GCN的权重矩阵,d’是新顶点特征的维数;
在基于属性三元组的实体对齐任务中,不同属性对实体对齐的贡献不同,因此采用注意机制提取关键属性信息,图注意力网络GAT将共享的线性变换应用于每个注意力函数中的实体;计算公式如下:
c=LeakeyReLU[(MH0)T(MH1)]
α=softmax(c)
其中,c是实体及其邻居实体的可学习注意力权重,α是c经过softmax函数归一化之后的权重,H1是汇集了实体属性信息和属性值信息的新特征矩阵;
给定属性三元组(h,a,v)∈KG1∪KG2,定义了如下的函数,将属性结构信息和属性值内容信息传递给实体;
基于上面的公式,实体向量表示将会尽量接近属性和属性值的综合向量表示;使用logistic loss优化函数fattr,公式如下:
其中,γ1和γ2分别表示来自于知识图谱1和知识图谱2的属性三元组集合;
3)采用BERT作为预训练模型,学习文本的语法结构信息和语义信息,对不同语言的文本信息进行编码,再基于种子对齐实体对信息进行微调,计算不同语言的文本信息之间的相关性,
给定实体的不同语言的文本描述信息,根据实体的文本信息训练BERT,训练目标为:(1)随机掩盖一些词,根据该词的上下文预测被掩盖的词语,(2)随机选取一些连续句子,预测前后句子之间的连贯性;
4)采用线性变换方法,将不同的实体上下文学习到的向量映射到同一个向量空间中,称为共享向量空间;
其中,是实体第i个视角对应的向量表示,所述步骤1)、2)、3)中分别是三个视角即三类实体上下文对应的实体向量,Hi是将实体第i个视角的向量映射到共享空间的映射矩阵;
其中,D是视角的个数,I是单位矩阵;
4a)嵌入拼接
V=[V1;V2;...;VD]
如上式所示,在共享空间中,将所有视角即所有上下文的向量表示进行拼接,作为最终的实体向量表示;
4b)多视角完整空间学习
对于所有实体,向量表示为x,视角的个数为D,全局空间为λ,则由λ重构这D个视角的损失函数为
其中,c是一个超参数,Wi是由全局空间λ生成第i个视角的生成矩阵;上述loss函数,可以分解为两部分,第一部分是计算生成矩阵W,第二部分是计算实体在全局空间的向量表示x;
给定生成矩阵W的情况下,上述loss函数可被简化为
求导得出x的更新公式如下,记为公式1和公式2:
固定全局空间中所有实体向量不变的情况下,上述loss函数可被简化为
求导得出W的更新公式如下,记为公式3和公式4:
经过多次迭代,模型收敛,向量x即为最终的实体向量表示;
5)所述步骤4)中得到了待对齐知识图谱中所有实体的向量表示,记所有实体的向量矩阵为W1和W2,通过计算矩阵乘积,查找出与每个实体最相似的实体;
S=W1′W2
对于每个实体i,在行向量Si中,找出与实体i最相似的实体j,即:
Sij=max(Si*),0≤*≤|E|
其中|E|表示实体总数;
6)所述步骤5)中最终得到了很多最相似实体对,即为对齐实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110346496.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种天麻营养保健酸奶及其制备方法
- 下一篇:一种人力驱动的升降画框