[发明专利]统一数据模型构建方法、系统、终端设备及可读存储介质在审
申请号: | 202110622096.5 | 申请日: | 2021-06-03 |
公开(公告)号: | CN113360668A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 徐会芳;谈元鹏;焦飞;张中浩;仝杰 | 申请(专利权)人: | 中国电力科学研究院有限公司;国家电网有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06Q50/06 |
代理公司: | 北京中巡通大知识产权代理有限公司 11703 | 代理人: | 孟大帅 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 统一 数据模型 构建 方法 系统 终端设备 可读 存储 介质 | ||
1.一种统一数据模型构建方法,其特征在于,包括以下步骤:
基于预设多个电力垂直业务知识图谱的本体框架,获得各图谱的本体概念;
采用基于混合策略的相似度计算方法对所述各图谱的本体概念进行归并,完成统一数据模型构建。
2.根据权利要求1所述的一种统一数据模型构建方法,其特征在于,所述采用基于混合策略的相似度计算方法对所述各图谱的本体概念进行归并的步骤具体包括:
通过计算基于名称的概念相似度、基于实例的概念相似度、基于属性的概念相似度和基于结构的概念相似度中的一种或多种相似度,得到各图谱的本体概念之间不同维度的匹配度;
基于所述匹配度加权计算获得各图谱的本体概念之间最终的匹配置信度;
将匹配置信度大于预设阈值的本体概念进行归并,将归并后的概念添加到统一数据模型;将匹配置信度小于等于预设阈值的本体概念保留原始信息,添加到统一数据模型。
3.根据权利要求2所述的一种统一数据模型构建方法,其特征在于,计算基于名称的概念相似度的步骤具体包括:
基于字符串的相似度计算:将本体概念的名称作为字符串,进行规范化操作后,使用表达式(1)进行相似度计算:
其中,maxComSubStringi表示x1和x2的第i个公共子串,length(xi)表示第i个字符的长度;x1和x2的表示待计算相似度的两个字符串;
基于WordNet的语义相似度计算:采用WordNet同义词集辅助计算,计算表达式为:
其中,p(a)=wordcount(a)/wordtotal,表示WordNet中词义节点a及其子节点所包含的单词个数在整个词典中所占的比例,wordtotal是WordNet的单词总数;另外,x1∈a1,x2∈a2,表示x1和x2分别位于节点a1和a2中,节点a是a1和a2的公共祖先节点;
令s(x1)={s1i|i=1,2,3...,n}和s(x2)={s2j|j=1,2,3...,m}分别表示x1和x2所有语义,则两个字符串的相似度定义为它们之间的语义相似度最大值,表达式为:
基于注释的相似度计算:若两个待匹配的本体概念的注释信息相同,则确定两个本体概念相似,Simc(x1,x2)=1;否则,两个本体概念不相似,Simc(x1,x2)=0;
采用基于名称的概念相似度结合策略,概念的名称相似度计算表达式为:
Simn(x1 x2)=w1*Sims(x1,x2)+w2*Simd(x1,x2)+w3*Simc(x1,x2) (4)
其中,w1、w2、w3表示三种概念相似度的权值,且w1+w2+w3=1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电力科学研究院有限公司;国家电网有限公司,未经中国电力科学研究院有限公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110622096.5/1.html,转载请声明来源钻瓜专利网。