[发明专利]一种基于大数据的分类存储方法及系统在审
申请号: | 201911413359.0 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111177506A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 廖海生 | 申请(专利权)人: | 广东科学技术职业学院 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F16/907 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 叶琦炜 |
地址: | 519090 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 分类 存储 方法 系统 | ||
本发明公开了一种基于大数据的分类存储方法及系统,涉及信息技术领域,用于实现:通过对大数据进行分类,分为结构化、半结构化和非结构化数据,结构化数据直接采用关系数据库存储;半结构化数据进行模式抽取,然后映射为结构化数据,再采用基于对象的关系数据库存储;非机构化数据先经过特征抽取、虚拟类、创建对象转化为结构化数据存储。本发明的有益效果为:分类误差小,效率高,具有良好的兼容性,实现信息数据管理的规范化和标准化。
技术领域
本发明涉及信息技术领域,特别涉及一种基于大数据的分类存储方法及系统。
背景技术
日益增长的海量数据对存储技术的要求越来越高,传统的存储系统已力不从心,因此提出一种新的存储模型——面向对象的存储思想。面向对象存储思想是对传统对象关系数据库的扩展,是由新加坡学者Ling Tok Wang等人提出,最初用于解决图书管理、工程项目管理等半结构化数据管理。
大数据以数据结构来说有三种形式:结构化、非结构、半结构化。
结构化:任何可以以固定格式存储,访问和处理的数据都被称为“结构化”数据。
非结构化:任何具有未知形式或结构的数据都被归类为非结构化数据。除了规模巨大之外,非结构化数据在处理从中获取价值方面带来了多重挑战。非结构化数据的典型示例是包含简单文本文件,图像,视频等组合的异构数据源。现在,组织可以随时获得大量数据,但不幸的是,他们不知道如何从中获取价值。此数据采用原始格式或非结构化格式。
半结构化:数据可以包含两种形式的数据。我们可以看到半结构化数据在形式上是一种受限制的,但实际上并没有用例如关系型DBMS中的表定义来定义。半结构化数据的示例是以XML文件表示的数据。
由于上述三种数据类型,在对大数据进行存储的时候,需要对数据类型进行分类分析再存储,因此需要一种高效的数据分类方式。
发明内容
为至少解决现有技术中存在的技术问题之一,本发明的目的在于提供一种基于大数据的分类存储方法及系统,通过对大数据进行分类,分为结构化、半结构化和非结构化数据,结构化数据直接采用关系数据库存储;半结构化数据进行模式抽取,然后映射为结构化数据,再采用基于对象的关系数据库存储;非机构化数据先经过特征抽取、虚拟类、创建对象转化为结构化数据存储。
本发明解决其问题所采用的技术方案第一方面是:一种基于大数据的分类存储方法,其特征在于,包括以下步骤:S10、基于分类算法对获取的应用数据进行分类,判断所述应用数据类型;S20、对结构化数据直接存入数据库群中;S30、对半结构化数据进行模式抽取,映射为结构化数据后存入所述数据库群中;S40、对非结构化数据进行特征抽取、虚拟类以及创建对象转化为结构化数据后存入所述数据库群中。
有益效果:分类误差小,效率高,具有良好的兼容性,实现信息数据管理的规范化和标准化。
根据本发明第一方面所述的,S30还包括:S31、对半结构化数据进行基于指定模型进行模式抽取,映射为结构化数据;S32、根据所述结构化数据基于对象的关系数据库进行存储。
根据本发明第一方面所述的,指定模型为OEM模型。
根据本发明第一方面所述的,S10还包括:S11、以大数据作为学习数据,建立分类规则库;S12、检测所述应用数据的对应属性,若检测到所述分类规则库存在该属性对应的规则,则使用所述对应的规则进行分类,否则添加对应规则至所述应用数据并进行分类。
根据本发明第一方面所述的,S12还包括:对所述应用数据按照文件后缀名、内容结构以及数据特征的顺序进行检测。
根据本发明第一方面所述的,S11还包括:创建第一数组、第二数组和第三数组;所述第一数组元素包括各类非结构化数据文件的后缀名;所述第二数组元素包括数据主题或关键词;所述第三数组元素包括结构化数据特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东科学技术职业学院,未经广东科学技术职业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911413359.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种壁挂炉的防冻控制方法及防冻系统
- 下一篇:无菌空气过滤装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置