[发明专利]一种基于XML数据自动构建RDF数据的方法在审
申请号: | 202011445817.1 | 申请日: | 2020-12-09 |
公开(公告)号: | CN112559767A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 刘玉春;马宗民 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/84 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 徐激波 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 xml 数据 自动 构建 rdf 方法 | ||
本发明公开了一种基于XML数据自动构建RDF数据的方法,首先,对不同类型的XML数据抽取语义;对于无格式限制的XML数据采用遍历方式聚合标签名称相同的元素,然后对聚合类进行整理获得不同聚合类所对应的抽象模型,根据相应的映射规则构建本体RDF Schema;对于有XML Schema限制的XML数据,通过对XML Schema的解析处理获得相关的类和属性,根据获得的类和属性构建本体RDF Schema;然后对XML中的元素编号筛选重复的数据实体,对XML中的重复元素进行遍历,根据等价元素判决条件对不同的元素添加唯一的编码,给予重复元素相同的编码;最后针对不同的聚合类构建相应的映射规则,构建该元素对应的RDF三元组;本发明实现了将其转换为RDF数据的目的,方法更具通用性。
技术领域
本发明涉及知识图谱技术领域,主要涉及一种基于XML数据自动构建RDF数据的方法。
背景技术
万维网技术的发展改变了人类社会的发展进程,如今人类生活的各个方面几乎都有它的存在,万维网技术的变革带动了人类社会的进步。语义网技术作为这种变革的方向之一,自诞生以来已经取得长足的进步。语义网技术采用一种更容易被机器理解的表示方法来描述WEB上的数据信息,使得计算机能够更加智能化的处理数据。RDF是一种描述对象(资源)和对象之间的关系的数据模型,用它来作为描述数据的模型可以给数据赋予语义,语义化的数据在语义网中可以实现逻辑推理,使得网络应用更加智能化。RDF(resourcedescription framework)是由一系列陈述即“对象-属性-值”三元组组成。RDF是领域独立的,用户可以使用RDF Schema来定义某一领域所用到的术语,可以将它作为描述类和属性的词汇描述语言,同时可以描述关于这些类和属性的层次结构语义。
XML是一种文档标记语言,通过用户自定义的标签以及标签之间的嵌套关系可以有效地描述数据之间的相互关系,作为一种适宜描述网络半结构化数据的标准格式,XML已经发展为信息领域数据表示和数据交换的主要媒介并在众多领域有所应用。XML通过标签嵌套和自定义的方式为数据的构建提供了语法方面的支持,但是隐藏在数据中的语义只能够通过人工分析去理解,无法实现语义网所描绘的那种通过智能代理的方式去处理数据的目的,所以需要对基于XML描述的数据进行转换,将相关数据和数据之间的语义用RDF数据模型去描述,使得转换过后的数据能够达到语义网所要求的数据构建标准。
本发明从XML的结构和内容入手,提取数据中的隐含语义。为了统一特定领域的XML数据的结构,通常使用DTD(document type definition)或者XML Schema Definition来规定XML文档中所用的元素和属性以及数据的组织方式。还有大多数XML文档是没有DTD或者XML Schema的。本发明聚焦于各种不同类型的XML文档,实现通用型的转换方法,由于DTD已经逐渐被XML Schema所取代,所以本发明不再讨论DTD。
本发明基于XML Schema的XML文档,通过对XML Schema的解析获得XML文档的结构信息,主要是元素和属性的相互嵌套关系;对于没有结构规定的XML文档,通过直接对XML文档的解析对其中的元素和属性进行分类和聚合的方式获得元素和属性的相互嵌套关系。无论对哪一种类型的XML,对所获得的元素和属性的嵌套关系进行分类和定义并构建转换为相应的RDF领域词汇(类和属性)的映射规则,即获得相关领域的概念模型——本体,在本发明中使用RDF Schema作为本体的描述语言。本体是逻辑推理的基础,构建符合源数据所含语义的本体是构建基于XML所构建的RDF的基础。在许多已有的转换方法中,只考虑了拥有结构描述(即XML Schema)的XML的转换方法,并且在构建领域词汇(RDF Schema)的过程中存在一些语义不合理的情况,人为的添加了一些有助于转换过程的而源数据中没有的语义。本发明基于XML的结构以及元素和属性的内容,构建起一套符合源数据(XML文档)语义的本体词汇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011445817.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置