[发明专利]一种基于数据仓库的异构大数据整合方法和系统有效

申请号：	201310723548.4	申请日：	2013-12-24
公开（公告）号：	CN103678665A	公开（公告）日：	2014-03-26
发明（设计）人：	徐晓冬;邹铁鹏;何昌桃;黄建鹏	申请（专利权）人：	焦点科技股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京知识律师事务所 32207	代理人：	张苏沛
地址：	210061 江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于数据仓库异构大数据整合方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明主要涉及互联网领域，尤其涉及一种基于数据仓库的异构大数据整合方法和系统。

背景技术

商业智能（BI，Business Intelligence）综合利用数据仓库、ETL技术、OLAP分析以及数据挖掘技术对数据进行有效的整合和存储，并对数据进行分析，提取出其中蕴藏的知识，从而帮助企业进行决策分析，在企业中得到了越来越广泛的应用。

随着互联网的快速发展，使互联网的应用越来越丰富，这些应用让互联网留存了海量的数据信息，包括用户的浏览记录，交易记录、日志文件、网络页面信息以及超链接。如何在海量的、动态的互联网信息数据中获取有用的知识，是商业智能的价值所在。

但是传统的商业智能架构移植到互联网应用领域会产生严重的“水土不服”现象，因为如下几种情况限制了传统的商业智能架构的作用：

●互联网应用中数据源多种多样，包含各种关系型数据库保存的数据，社交网络产生的数据，网络日志数据、图片文件、文本文件等。但传统的商业智能都是以处理各种关系型数据库中的数据见长。

●互联网数据量巨大。目前各类网站，特别是运营时间比较长的电子商务网站，都会产生了巨大的网络日志，而且在数据库中也存储了大量的各类数据，包括产品数据、商情数据、询盘数据等，另外，还有大量的各类数据文件保存在服务器中，在处理这么大规模的数据都出现了很多新的问题，而传统的关系型数据库目前已经无法满足处理如此大规模数据的要求。

●电子商务对于数据分析的实时性要求极高，有很大部分的数据只在短时间内才能体现数据的价值，处理数据速度的快慢就显得尤为重要。

●用户量巨大，互联网特别是电子商务的BI应用很大一部分是面向网站的用户群体的，这个群体数目巨大。传统的BI展现工具设计的时候是为了企业的中高层用户设计，移植到互联网应用中，无论从用户体验，交互效率都存在巨大差距。

以上四个问题就是传统的BI解决方案在互联网领域屡屡失败的根本原因。

目前针对大数据的处理方法，已经有一些研究和应用成果。

专利“一种分布式数据流处理方法及其系统”（专利申请号：201110378247.3），它提出的方法是：将原始数据流分割成实时数据流和历史数据流，并行处理实时数据流和历史数据流，并对他们的处理结果进行整合。这种方法通过对数据按时间进行分类，实时数据流的运算能够最大限度地以分布式并行处理，保证了大数据量的处理和高实时性。但这种方法没有解决异构数据之间关系问题，对于异构大数据如何协调之间的关联关系，并进行整合处理方面，还没有提出解决方法。

专利“一种大数据量的数据查询方式”（专利申请号：201210075512.5），此方法先定义增量数据捕获方式，以及增量捕获调度执行计划，然后执行增量数据定期归集，最后执行数据统计结果查询。此方法把复杂的数据统计查询过程包分解成两个过程：统计计算归集和实时查询；将统计计算归集过程放在后台运行，并且归集过程只归集增量数据，提高了大数据量统计查询的执行效率。此方法主要是针对关系型数据数据库提出的，没有涉及到异构数据的处理。

发明内容

为了解决上述问题，本发明提出了一种基于数据仓库的异构大数据整合方法和系统，建立结构化数据、半结构化数据及非结构化数据的关联关系，结合关系型数据库、分布式数据库以及内存数据库的各自的优势，整合各类数据，基于数据仓库做深层次数据分析，不断深化数据挖掘，实现高效、高质量的异构大数据分析处理。

本发明技术方案如下：

一种基于数据仓库的异构大数据整合方法，包括：

数据源分为两部分存储，一部分存储在关系型数据库中，另一部分存储在文件系统中。其中，存储在关系型数据库中的数据主要是各个业务系统产生的数据，包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据等结构化数据，也包括关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容等非结构化数据；存储在文件系统中的数据主要是以网络日志文件为主的半结构化数据，以及各类图片文件和文档文件等非结构化数据。

各个业务系统中的数据，经过标准数据接口，通过ETL，加载到ODS，再从ODS通过ETL加载到数据仓库中。

存储在文件系统中的各类图片文件和文档文件，首先加载到Hadoop分布式文件系统（简称：hdfs）中，再利用Map/Reduce对这些文件进行处理，使之能够被Hive所使用。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司，未经焦点科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310723548.4/2.html，转载请声明来源钻瓜专利网。

上一篇：一种下载文件的安全扫描方法及装置
下一篇：一种数据库安全审计中获取连接信息的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于数据仓库的异构大数据整合方法和系统有效

专利文献下载