[发明专利]一种基于关系数据库自动构建RDF的方法在审
申请号: | 201911006404.0 | 申请日: | 2019-10-22 |
公开(公告)号: | CN110795453A | 公开(公告)日: | 2020-02-14 |
发明(设计)人: | 杨天社;樊恒海;徐一鸣;刘帆;武帅;吴冠;冯军华;邢楠;钟文冬;杨旭;高波;傅娜;杨怀军 | 申请(专利权)人: | 中国西安卫星测控中心;复旦大学 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/28;G06F16/36 |
代理公司: | 31323 上海元好知识产权代理有限公司 | 代理人: | 张静洁;徐雯琼 |
地址: | 710043 陕西省西安*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关系型数据库 测试数据库 引用关系 数据库模式 数据库内容 训练数据库 实体关系 关系数据库 数据库关系 机器学习 潜在关系 转换规则 自动构建 发现 语句 转换 | ||
本发明提供一种基于关系数据库自动构建RDF的方法,包含步骤:S1、任意选取若干个关系型数据库,提取属性间的数据库模式特征值、数据库内容实例特征值;S2、选取部分关系型数据库作为训练数据库,剩余的作为测试数据库;通过机器学习训练所述训练数据库属性间的数据库模式特征值、数据库内容实例特征值,生成实体关系发现模型;通过实体关系发现模型得到测试数据库包含的属性间引用关系;S3、为所述测试数据库包含的属性间引用关系生成对应的数据库关系图;S4、根据关系型数据库的RDF转换规则,转换所述测试数据库包含的引用关系为对应的RDF语句。本发明能准确的发现关系型数据库中各属性间的潜在关系。
技术领域
本发明涉及Web数据管理技术领域,具体涉及一种基于关系数据库自动构建RDF的方法。
背景技术
知识图谱的概念是由谷歌公司在2012年提出的,谷歌主要利用该技术构建下一代智能化搜索引擎。虽然知识图谱的概念较新,但是它并非是一个全新的研究领域。知识图谱是由自然语言处理、信息检索和Web语义网等技术发展而来的综合产物。在航天领域,一个包含大量航天领域知识的知识图谱能够为航天领域的工作提供辅助决策、预判研判、预测预警、健康管理等多种功能。因此建立一个航天领域的知识图谱意义很大。
知识图谱需要从大量文本、图像、知识库等信息源中提取知识,关系数据库是建立知识图谱的一个重要数据源。关系数据库作为一种物理模型,出于自身模式,软件限制,数据库设计考虑等多方面因素,普遍存在缺乏语义的问题。关系数据库中存储着大量缺乏语义的数据,若通过人工添加语义关系则耗时耗力。
为了让计算机能力理解文档中的数据和数据之间的关联关系,目前普遍采用RDF(resource description framework,资源描述框架)来描述网上数据。RDF的基本思想是:(1)将一切可以在Web上标识的事物(具体的或抽象的,存在的或不存的)统称为“资源”;(2)用URI(Universal ResourceIdentifier,通用资源标识)来标识资源;(3)用属性(property)和属性值来描述资源。在RDF中任何表达式的基本结构是一个三元组的集合,每个三元组由主语,谓语和宾语构成。主语对应于资源,是可拥有URI的任何事物,比如http://dbpedia.org/resource/China;谓语对应于属性,是拥有名称的资源,比如author,firstname;宾语对应于属性值,可以是字符串或者另外一个资源,比如Mary或者http://dbpeida.org/resource/Japan。
目前,众多相关学者和机构提出了各种从关系数据库中自动提取语义信息,构建知识图谱中RDF三元组的方法。W3C提出了直接映射法,定义了将关系数据库映射为RDF图的简单映射规则,可将数据资源转换为机读格式,该方法注重于映射的自动发现,使用基于上下文的方法,利用已有的本体网络,构建起数据库到本体的映射关系。D2R Map,以及在其基础上进一步改进的DB20WL均利用了外部的SQL查询语句,利用SQL中涉及的表格和属性构建RDF;R2RML、D2RQ则在SQL语句之外加入了特殊映射语言,允许在构建的映射规则上进行人工修改和补充。与数据库发布后的网页应用交互,将关系数据库转为连接数据发布。
但这些基于规则的提取方法往往只关注数据库实体间关系的显式映射,而忽视了数据库实体间关系的发现工作,导致其转换结果未能完全挖掘数据库中蕴含的语义信息,也没能合并数据库中相似的概念,因此最终生成的知识图谱中存在冗余实体,实体间关系也存在缺失现象。
发明内容
本发明的目的是提出一种从关系数据库中自动构建RDF的方法,该方法基于随机森林算法的数据库实体间关系发现与转换方法,包含关系数据库实体间关系发现和实体间关系转换两部分。本发明的方法在关系发现阶段,利用关系型数据库的模式特征值和数据库内容实例特征值,通过随机森林算法建立实体关系发现模型,通过该实体关系发现模型来发现关系型数据库中隐藏的实体间关系。
为了达到上述目的,本发明提供一种基于关系数据库自动构建RDF的方法,包含步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国西安卫星测控中心;复旦大学,未经中国西安卫星测控中心;复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911006404.0/2.html,转载请声明来源钻瓜专利网。