[发明专利]一种非结构化数据管理方法及装置在审
申请号: | 201611265485.2 | 申请日: | 2016-12-30 |
公开(公告)号: | CN106649863A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 王少一;盛中杰;胡珂;于海波;许哲;孟浩东;吴永军 | 申请(专利权)人: | 天津市测绘院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300000 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结构 数据管理 方法 装置 | ||
技术领域
本发明属于数据库技术领域,尤其是涉及一种非结构化数据管理方法及装置。
背景技术
结构化数据库,又称关系型数据库,是建立在关系模型基础上的数据库。关系模型由关系数据结构、关系操作集合、关系完整性约束三部分组成。关系数据结构是对结构化数据的严格约束,如:字段类型、字段长度、精度、默认值等。是当前数据存储与管理应用的主流技术。
结构化数据即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等等。
随着网络技术的飞速发展,非结构化数据近些年来增长速度惊人,且以44倍的速度迅猛增长,而这些非结构化数据又不适合存储在关系型数据库中,应运产生了非结构化数据库,非结构化数据库是指其字段长度不等,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库。正是这种特性,成就了非结构数据库在非结构化数据读取方面的高效,但因为其自身设计特点,非结构数据库在回答一些结构化方面的问题时变得非常低效,如:数据库中是否有某某数据,非结构化数据库往往需要遍历整库数据,才能回答类似问题,完全没有结构化数据依靠元数据及结构化查询语言SQL来的高效。
发明内容
有鉴于此,本发明提供了一种非结构化数据管理方法及装置,以解决非结构化数据无法在关系型数据库中应用的技术问题。
一方面,本发明实施例提供了一种非结构化数据的存储方法,包括:
获取非结构化数据文件,并分解所述文件;
根据所述分解结果获取所述文件中的结构化信息,根据所述结构化信息存储所述非结构化数据。
进一步的,在根据所述结构化信息存储所述非结构化数据之前,还包括:
对所述结构化信息进行清洗。
进一步的,所述根据所述分解结果获取所述文件中的结构化信息,包括:
根据所述分解结果获取所述文件中的多个不同类型的结构化信息;
所述根据所述结构化信息存储所述非结构化数据,包括:
按照所述类型将所述非结构化数据存储在多张系统表中。
一方面,本发明实施例提供了一种非结构化数据的查询方法,包括:
采用标准查询语言在系统表中进行查找;
根据所述查找得到的结构化数据确定非结构化数据。
进一步的,所述根据所述查找得到的结构化数据确定非结构化数据,包括:
根据所述结构化数据确定非结构化数据分解与存储情况;
根据非结构化数据分解与存储情况进行重组,实现非结构化数据的重现。
一方面,本发明实施例提供了一种非结构化数据的存储装置,包括:
分解单元,用于获取非结构化数据文件,并分解所述文件;
存储单元,用于根据所述分解结果获取所述文件中的结构化信息,根据所述结构化信息存储所述非结构化数据。
进一步的,所述装置还包括:
清洗单元,用于对所述结构化信息进行清洗。
更进一步的,所述存储单元用于:
根据所述分解结果获取所述文件中的多个不同类型的结构化信息;
按照所述类型将所述非结构化数据存储在多张系统表中。
另一方面,本发明实施例提供了一种非结构化数据的查询装置,包括:
查找单元,用于采用标准查询语言在系统表中进行查找;
确定单元,用于根据所述查找得到的结构化信息确定非结构化数据。
进一步的,所述确定单元用于:
根据所述结构化信息确定非结构化数据分解与存储情况;
根据非结构化数据分解与存储情况进行重组,实现非结构化数据的重现。
本发明实施例提供的非结构化数据管理方法及装置,通过对非结构化数据进行处理,使之分解为包括多个结构化信息。并根据结构化信息进行存储,并可通过结构化信息进行查询。有效的解决了结构化数据与非结构化数据的一体化存储与管理,有效的保障了数据的完整性,极大的方便了关系型数据库的备份与迁移。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津市测绘院,未经天津市测绘院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611265485.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电子资源匹配方法
- 下一篇:一种信息的展示方法及装置