[发明专利]一种基于大数据的分类存储方法及系统在审

专利信息
申请号: 201911413359.0 申请日: 2019-12-31
公开(公告)号: CN111177506A 公开(公告)日: 2020-05-19
发明(设计)人: 廖海生 申请(专利权)人: 广东科学技术职业学院
主分类号: G06F16/906 分类号: G06F16/906;G06F16/907
代理公司: 广州嘉权专利商标事务所有限公司 44205 代理人: 叶琦炜
地址: 519090 *** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 分类 存储 方法 系统
【说明书】:

发明公开了一种基于大数据的分类存储方法及系统,涉及信息技术领域,用于实现:通过对大数据进行分类,分为结构化、半结构化和非结构化数据,结构化数据直接采用关系数据库存储;半结构化数据进行模式抽取,然后映射为结构化数据,再采用基于对象的关系数据库存储;非机构化数据先经过特征抽取、虚拟类、创建对象转化为结构化数据存储。本发明的有益效果为:分类误差小,效率高,具有良好的兼容性,实现信息数据管理的规范化和标准化。

技术领域

本发明涉及信息技术领域,特别涉及一种基于大数据的分类存储方法及系统。

背景技术

日益增长的海量数据对存储技术的要求越来越高,传统的存储系统已力不从心,因此提出一种新的存储模型——面向对象的存储思想。面向对象存储思想是对传统对象关系数据库的扩展,是由新加坡学者Ling Tok Wang等人提出,最初用于解决图书管理、工程项目管理等半结构化数据管理。

大数据以数据结构来说有三种形式:结构化、非结构、半结构化。

结构化:任何可以以固定格式存储,访问和处理的数据都被称为“结构化”数据。

非结构化:任何具有未知形式或结构的数据都被归类为非结构化数据。除了规模巨大之外,非结构化数据在处理从中获取价值方面带来了多重挑战。非结构化数据的典型示例是包含简单文本文件,图像,视频等组合的异构数据源。现在,组织可以随时获得大量数据,但不幸的是,他们不知道如何从中获取价值。此数据采用原始格式或非结构化格式。

半结构化:数据可以包含两种形式的数据。我们可以看到半结构化数据在形式上是一种受限制的,但实际上并没有用例如关系型DBMS中的表定义来定义。半结构化数据的示例是以XML文件表示的数据。

由于上述三种数据类型,在对大数据进行存储的时候,需要对数据类型进行分类分析再存储,因此需要一种高效的数据分类方式。

发明内容

为至少解决现有技术中存在的技术问题之一,本发明的目的在于提供一种基于大数据的分类存储方法及系统,通过对大数据进行分类,分为结构化、半结构化和非结构化数据,结构化数据直接采用关系数据库存储;半结构化数据进行模式抽取,然后映射为结构化数据,再采用基于对象的关系数据库存储;非机构化数据先经过特征抽取、虚拟类、创建对象转化为结构化数据存储。

本发明解决其问题所采用的技术方案第一方面是:一种基于大数据的分类存储方法,其特征在于,包括以下步骤:S10、基于分类算法对获取的应用数据进行分类,判断所述应用数据类型;S20、对结构化数据直接存入数据库群中;S30、对半结构化数据进行模式抽取,映射为结构化数据后存入所述数据库群中;S40、对非结构化数据进行特征抽取、虚拟类以及创建对象转化为结构化数据后存入所述数据库群中。

有益效果:分类误差小,效率高,具有良好的兼容性,实现信息数据管理的规范化和标准化。

根据本发明第一方面所述的,S30还包括:S31、对半结构化数据进行基于指定模型进行模式抽取,映射为结构化数据;S32、根据所述结构化数据基于对象的关系数据库进行存储。

根据本发明第一方面所述的,指定模型为OEM模型。

根据本发明第一方面所述的,S10还包括:S11、以大数据作为学习数据,建立分类规则库;S12、检测所述应用数据的对应属性,若检测到所述分类规则库存在该属性对应的规则,则使用所述对应的规则进行分类,否则添加对应规则至所述应用数据并进行分类。

根据本发明第一方面所述的,S12还包括:对所述应用数据按照文件后缀名、内容结构以及数据特征的顺序进行检测。

根据本发明第一方面所述的,S11还包括:创建第一数组、第二数组和第三数组;所述第一数组元素包括各类非结构化数据文件的后缀名;所述第二数组元素包括数据主题或关键词;所述第三数组元素包括结构化数据特征。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东科学技术职业学院,未经广东科学技术职业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911413359.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top