[发明专利]一种基于实体属性相似度的知识图谱数据融合方法有效
| 申请号: | 202111044230.4 | 申请日: | 2021-09-07 |
| 公开(公告)号: | CN113722509B | 公开(公告)日: | 2022-03-01 |
| 发明(设计)人: | 张静;栾瑞鹏;胡军;王紫鹏 | 申请(专利权)人: | 中国人民解放军32801部队 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/194;G06K9/62 |
| 代理公司: | 北京丰浩知识产权代理事务所(普通合伙) 11781 | 代理人: | 李学康 |
| 地址: | 100085 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 实体 属性 相似 知识 图谱 数据 融合 方法 | ||
1.一种基于实体属性相似度的知识图谱数据融合方法,其特征在于,其具体包括:
S1,获取要进行融合的多个知识图谱数据;
从若干个网络数据源中利用网络爬虫技术爬取数据文件,并从中提取知识图谱数据,对提取的知识图谱数据,以实体、关系、实体及实体、属性、属性值的三元组形式进行储存,并将提取的知识图谱数据转化为实体-属性的结构化数据集D,即:
D={e1,e2,...eT},
上式中,e1,...eT分别表示结构化数据集D中所包含的T个实体数据,T为结构化数据集D中的实体数据的数量,分别代表第i个实体的n个属性值;
结构化数据集D中的每条实体数据的属性信息遵从同一范式,即存在映射1≤i≤T,1≤j≤n,Aj表示所有实体的第j个统一属性值,表示第i个实体的第j个属性;对所有指向同一个实体的数据进行标注,得到用于训练和测试的数据,构建映射ρ,当且仅当ei,ej指向同一实体时,其满足ρ(ei)=ρ(ej),ei,ej分别表示结构化数据集D中的第i个实体数据和第j个实体数据;
S2,利用词向量余弦相似度对实体属性进行去重;
S21,利用word2vec算法,获得每个实体属性名称文本的词向量表示;
S22,对实体属性名称文本进行分块;
S23,对步骤S22分块后的属性数据,筛选出重复的属性数据,实现属性去重;
S3,对实体名称进行统一;
利用网络百科维护的共指页面,获取到实体的别名信息;在获得实体的别名信息后,遍历所有实体名称,将所有实体名称统一为实体常用名;
S4,对实体属性值进行简化,其具体包括:
S41,当实体属性值为文本属性值时,构建文本属性值的正则表达式,再提取文本属性值的实体型号和代号,再去除文本属性值中的冗余部分,以对文本属性值进行简化;
S42,当实体属性值为数值属性值时,构建数值属性值的正则表达式,提取数值属性值的数值大小和单位信息,对单位信息进行换算统一;
S5,针对不同实体属性值,采用相应的相似度函数进行相似度计算;
步骤S4对实体属性值进行简化后,得到的实体属性分为三类,分别是数值属性、文本属性和布尔值属性,针对这三类属性采用相应的相似度函数进行相似度计算;
S6,训练决策树模型,根据实体各个属性相似度,采用训练好的平衡样本权重的决策树模型作为匹配器模型,判断不同实体是否匹配;
所述的步骤S5,其具体包括,
S51,计算数值属性相似度;
对于第i个实体数据和第j个实体数据的第k个数值属性和其相似度的计算公式为:
其中,表示第i个实体数据和第j个实体数据的第k个数值属性的相似度;
S52,计算文本属性相似度;文本属性相似度的计算方法包括基于词向量和字向量的方法和基于编辑距离的方法;
所述的基于词向量和字向量的方法,先将实体属性的文本数据进行分词,再将每个词用一个预训练好的向量进行表示,整条文本数据的向量表示通过对其包含的所有词的向量表示求平均得到,通过对两条文本数据的向量表示求方向余弦,得到文本属性的相似度;
所述的基于编辑距离的方法,是指将两个字符串之间,由一个字符串转成另一个字符串所需的最少编辑操作次数,作为文本属性的相似度;
假设两个实体属性的文本数据分别为s1,s2,词嵌入操作为emb,则其基于词向量和字向量方法的相似度S12定义为
S53,计算实体类别属性相似度;
给定两组实体数据ei,ej,对于这两组实体数据的第k个类别属性和其相似度的计算公式为:
其中,表示两组实体数据ei,ej的第k个类别属性的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军32801部队,未经中国人民解放军32801部队许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111044230.4/1.html,转载请声明来源钻瓜专利网。





