[发明专利]一种基于大数据的挖掘平台构建方法在审
申请号: | 201610113818.3 | 申请日: | 2016-03-01 |
公开(公告)号: | CN105787064A | 公开(公告)日: | 2016-07-20 |
发明(设计)人: | 李丽;陈鹏;唐彬 | 申请(专利权)人: | 广州铭诚计算机科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510630 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 挖掘 平台 构建 方法 | ||
技术领域
本发明涉及一种基于海量数据的挖掘平台构建方法,分数据集成平台、Java驱动引擎、可视化展示与应用层三部分,适用于处理不同规模、类型多样的海量数据,允许结果在PC端及移动端展示,并应用于智慧医疗、智慧公安、智慧通信等方面。
背景技术
在理想的世界中,大数据是巨大的杠杆,可以改变公司的影响力,带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。
大数据在当下的杰出表现有:
大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督;
大数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能力;
大数据帮助医疗机构建立患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使用效果,帮助艾滋病研究机构为患者提供定制的药物;
大数据帮助航空公司节省运营成本,帮助电信企业实现售后服务质量提升,帮助保险企业识别欺诈骗保行为,帮助快递公司监测分析运输车辆的故障险情以提前预警维修,帮助电力公司有效识别预警即将发生故障的设备;
大数据帮助电商公司向用户推荐商品和服务,帮助旅游网站为旅游者提供心仪的旅游路线,帮助二手市场的买卖双方找到最合适的交易目标,帮助用户找到最合适的商品购买时期、商家和最优惠价格。
发明内容
本发明提供一种基于大数据的挖掘平台构建方法,利用该平台进行数据挖掘,解决社会问题,商业营销问题,科学技术问题。未来还有一个可预见的趋势是以人为本的大数据方针,人才是地球的主宰,大部分的数据都与人类有关,要通过大数据解决人的问题。
为了实现上述目的,所构建系统的体系结构从下往上包括如下几个层级:数据集成平台,Java驱动引擎,可视化展示与应用层。
一种基于大数据的挖掘平台构建方法,其中所述数据集成平台包括如下几个步骤:
步骤一:自主研发爬虫平台,爬虫平台抓取外部数据及网页数据,其中外部数据包括用户数据、竞争者数据、供应商数据等;网页数据包括利用网络爬虫技术对相关网站进行信息抓取,形成半结构化以及非结构化的信息,网络信息抓取的时候,一开始指定的抓取对象非常重要,如对于行业政策,指定抓取相关的政府官方网站、行业协会网站会使得抓取的效果更好;
步骤二:对外部数据及抓取下来的信息进行数据预处理,包括页面信息解析、数据清洗和内容提取,对重复文章信息进行去重,并进行文本分词、特征提取以及关键词提取,以从噪音数据中分离出有用的信息以及减少数据的维数;
步骤三:Hadoop平台用来存储数据,包括:Hadoop分布式文件系统(HDFS)子平台,ZooKeeper子平台,Hbase子平台,Hive子平台,HadoopMapReduce子平台;其中Hadoop分布式文件系统(HDFS),支持对应用数据高吞吐量访问的分布式文件系统;其中HadoopMapReduce是基于YARN的大数据并行处理系统;其中Hive是用于Hadoop的一个数据仓库系统,它提供了类似于SQL的查询语言,通过使用该语言,可以方便地进行数据汇总,特定查询以及分析存放在Hadoop兼容文件系统中的大数据;其中Hbase是一种分布的、可伸缩的大数据储存库,支持随机、实时读/写访问;其中ZooKeeper是一种集中服务,其用于维护配置信息,命名,提供分布式同步,以及提供分组服务,安装这些项目,并手动地将它们集成到Hadoop中。
一种基于大数据的挖掘平台的构建方法,其中所述Java驱动引擎包括如下几个模块:分布式数据缓存管理模块,数据可视化视图管理、配置引擎模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州铭诚计算机科技有限公司,未经广州铭诚计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610113818.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置