[发明专利]一种多源异构行业领域大数据处理全链路解决方案在审
申请号: | 201710376130.9 | 申请日: | 2017-05-25 |
公开(公告)号: | CN107193967A | 公开(公告)日: | 2017-09-22 |
发明(设计)人: | 张莹;罗永洪;杨志帆;史慧珂;宋珂慧;袁晓洁 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津佳盟知识产权代理有限公司12002 | 代理人: | 李益书 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多源异构 行业 领域 数据处理 全链路 解决方案 | ||
技术领域
本发明属于大数据处理技术领域。具体涉及一种多源异构行业领域大数据处理全链路解决方案。
背景技术
随着信息技术在各行业领域深入应用,行业领域大数据极速产生和积累,例如金融领域的交易数据、电信领域的网络数据、交通运输的交通流量数据、教育领域的学生行为数据等。行业领域大数据具有明显的大数据特征,即所谓的4V特征属性:海量性(Volume)、多样性(Variety)、高速性(Velocity)、价值性(Value)。
这些数据规模庞大、种类繁多,但蕴含价值丰富,如果能从海量复杂数据中获得知识,将能够为各行业领域的活动提供智力支持,对人类的决策模式和社会经济的运行模式产生深远的影响。目前,在大数据的驱动下,各行各业都意识到迫切需要研究强大的大数据管理与处理平台、有效的数据处理技术和智能的数据分析算法,用于支撑实时数据统计、数据分析、复杂数据挖掘等应用。但大数据由采集、集成、存储、分析到产生价值,是一个复杂的过程。行业领域大数据的特征,为行业领域大数据管理与处理过程提出了诸多的挑战与困难:
1)面对跨系统分布、数据形式多样、结构各异的行业领域大数据,如何实现提出具有通用性的行业领域大数据处理流程?
2)面对数据量庞大、类型复杂,如何设计高效的数据存储架构,以满足实时快速的业务分析需求?
3)面对行业领域决策需求,如何构建多角度的数据分析模型,真正挖掘出大数据中蕴含的价值?
4)如何搭建全链路多源异构行业领域大数据处理平台,将行业领域大数据处理流程、高效存储架构、数据分析模型进行实践?
综上所述,信息爆炸时代的到来,大数据的研究价值非常巨大。随着数据管理、数据挖掘、云计算等研究技术的快速发展,许多有效的数据集成、数据融合、数据存储、分布式计算、数据分析技术纷纷涌现,为多源异构行业领域大数据处理的研究提供了理论基础和技术支持。在此背景下,针对行业领域大数据特征,研究多源异构数据集成,研究多层级存储架构,研究面向管理决策的多层次多维度数据分析,搭建全链路多源异构行业领域大数据处理平台,具有重要的研究意义和应用价值。
发明内容
本发明的目的是解决如何管理规模庞大、种类繁多的行业领域大数据以及如何从其中获取知识的问题,在理解行业领域大数据海量性、多样性、快速性、价值性特点的基础上,根据行业领域管理决策的应用需求,对多源异构领域大数据处理关键技术进行深入研究,包括数据清洗融合、数据存储、深度分析等问题,设计并实现了多源异构行业领域大数据处理全链路解决方案。
本发明提供的多源异构行业领域大数据处理全链路解决方案详细步骤包括:
第1、归纳行业领域大数据处理流程
总结现有的大数据处理平台,在传统大数据处理基本流程基础上,结合行业领域大数据的可视性和真实性特点和领域应用需求,探索出面向行业领域大数据处理的最基本流程;
整个行业领域大数据的处理流程定义为,在不同的采集设备、工具和系统辅助下,对多个异构行业领域数据源进行抽取与集成,再根据数据的特点进行统一存储,结合行业应用多角度需求,利用数据分析技术对存储的数据进行分析和挖掘,获取管理决策知识,并利用可视化分析方法将结果展示给用户;行业领域大数据的处理流程可以划分为数据抽取与集成模块、数据存储模块、数据分析模块和可视分析模块。
(1)数据抽取与集成模块
行业领域大数据的数据源多种多样,例如通过设备实时采集的数据、不同用途的运营式系统产生的数据,要想处理大数据,首先要从不同数据源抽取所需的数据。由于数据来源广泛、结构各异且数据间可能存在不一致,数据抽取后必须对异质多源数据进行数据集成,包括清洗脏数据、数据类型转换等传统数据清洗数据转换方法,并针对领域大数据独有的真实性特点,提供数据融合功能以解决数据冲突,从而保证数据的完整性、一致性和正确性,提高数据的质量。
(2)数据存储模块
大数据处理过程中,需要按照一定的标准对各类数据进行统一存储管理。在行业领域大数据处理流程中,存在原始数据、数据清洗、融合、转换生成的中间数据、数据分析及用于可视化展示的结果数据,它们的数据类型、数据规模、数据用途不尽相同。本发明考虑构建三层级行业领域数据统一存储框架,以满足不同层级不同规模不同用途数据存储的需求。
(3)数据分析模块
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710376130.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带有醒酒台的移动式红酒柜
- 下一篇:一种智能开合的床头柜