[发明专利]一种基于关系数据库自动构建RDF的方法在审
申请号: | 201911006404.0 | 申请日: | 2019-10-22 |
公开(公告)号: | CN110795453A | 公开(公告)日: | 2020-02-14 |
发明(设计)人: | 杨天社;樊恒海;徐一鸣;刘帆;武帅;吴冠;冯军华;邢楠;钟文冬;杨旭;高波;傅娜;杨怀军 | 申请(专利权)人: | 中国西安卫星测控中心;复旦大学 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/28;G06F16/36 |
代理公司: | 31323 上海元好知识产权代理有限公司 | 代理人: | 张静洁;徐雯琼 |
地址: | 710043 陕西省西安*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关系型数据库 测试数据库 引用关系 数据库模式 数据库内容 训练数据库 实体关系 关系数据库 数据库关系 机器学习 潜在关系 转换规则 自动构建 发现 语句 转换 | ||
1.一种基于关系数据库自动构建RDF的方法,其特征在于,包含步骤:
S1、任意选取若干个关系型数据库,提取所述关系型数据库的数据库模式特征值、数据库内容实例特征值;所述数据库模式特征值包含:属性名称语法近似度特征值、属性名称词集相似度特征值、属性数据类型匹配特征值、数据库关系特征值;所述数据库内容实例特征值包含:属性交集特征值、属性相似度特征值;
S2、选取所述若干个关系型数据库中的部分关系型数据库作为训练数据库,剩余的关系型数据库作为测试数据库;通过机器学习训练所述训练数据库的数据库模式特征值、数据库内容实例特征值,生成实体关系发现模型;将所述测试数据库的数据库模式特征值、数据库内容实例特征值输入所述实体关系发现模型,通过实体关系发现模型得到测试数据库包含的引用关系;
S3、为所述测试数据库包含的引用关系生成对应的数据库关系图;
S4、根据关系型数据库的RDF转换规则,转换所述测试数据库包含的引用关系为对应的RDF语句。
2.如权利要求1所述的基于关系数据库自动构建RDF的方法,其特征在于,步骤S1中关系型数据库属性名称语法近似度特征值的计算方法为:
ai、aj为关系型数据库的属性,和分别为ai、aj的属性名称;
为ai、aj之间的属性名称语法近似度特征值,也即关系型数据库中的一个属性名称语法近似度特征值,
其中别代的长度,表示之间的Levenshtein编辑距离,表示取中的大值。
3.如权利要求1所述的基于关系数据库自动构建RDF的方法,其特征在于,步骤S1中计算关系型数据库的属性名称词集相似度特征值的方法为:
令ai、aj为关系型数据库中的属性,和分别为ai、aj的字符串表示,分别为ai、aj为ai、aj所在表的表名;其中i,j∈[1,N],N为关系型数据库中包含的属性总数;
将拆分得到的ni个单词建立第i属性单词集合;拆分依序提取经拆分后所得单词的首字母,构成第i首字母缩写;将拆分所得的单词、所述第i首字母缩写、所述第i属性单词集合合并为第i词集;删除第i词集中的stopword;
将拆分得到的nj个单词建立第j属性单词集合;拆分依序提取经拆分后所得单词的首字母,构成第j首字母缩写;将拆分所得的单词、所述第j首字母缩写、所述第j属性单词集合合并为第j词集;删除第j词集中的stopword;
计算ai到aj的属性名称词集相似度特征值Ni为第i词集的单词数量;numij为第i词集与第j词集交集的单词数量;计算aj到ai的属性名称词集相似度特征值Nj为第j单词集合的单词数量;WordSim(ai,aj)、WordSim(aj,ai)为关系型数据库的属性名称词集相似度特征值。
4.如权利要求1所述的基于关系数据库自动构建RDF的方法,其特征在于,生成步骤S1中关系型数据库的属性数据类型匹配特征值的方法为:
令ai、aj为关系型数据库中的属性,预设一个数据类型相似度表格,其每行代表ai的一个数据类型,其每列代表aj的一个数据类型,行与列交点值表示ai与aj的数据类型匹配特征值,也即关系型数据库的属性数据类型匹配特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国西安卫星测控中心;复旦大学,未经中国西安卫星测控中心;复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911006404.0/1.html,转载请声明来源钻瓜专利网。