[发明专利]一种基于大数据的挖掘平台构建方法在审
| 申请号: | 201610113818.3 | 申请日: | 2016-03-01 | 
| 公开(公告)号: | CN105787064A | 公开(公告)日: | 2016-07-20 | 
| 发明(设计)人: | 李丽;陈鹏;唐彬 | 申请(专利权)人: | 广州铭诚计算机科技有限公司 | 
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 | 
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 | 
| 地址: | 510630 广东省广州市天*** | 国省代码: | 广东;44 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 数据 挖掘 平台 构建 方法 | ||
1.一种基于大数据的挖掘平台的构建,其特征在于,从下往上包括如下几个层级:数据集成平台,Java驱动引擎,可视化展示与应用层。
2.如权利要求1所述,一种基于大数据的挖掘平台的构建方法,其中数据集成平台包括如下几个步骤:
步骤一:自主研发爬虫平台,爬虫平台抓取外部数据及网页数据,其中外部数据包括用户数据、竞争者数据、供应商数据等;网页数据包括利用网络爬虫技术对相关网站进行信息抓取,形成半结构化以及非结构化的信息,网络信息抓取的时候,一开始指定的抓取对象非常重要,如对于行业政策,指定抓取相关的政府官方网站、行业协会网站会使得抓取的效果更好;
步骤二:对外部数据及抓取下来的信息进行数据预处理,包括页面信息解析、数据清洗和内容提取,对重复文章信息进行去重,并进行文本分词、特征提取以及关键词提取,以从噪音数据中分离出有用的信息以及减少数据的维数;
步骤三:Hadoop平台用来存储数据,包括:Hadoop分布式文件系统(HDFS)子平台,ZooKeeper子平台,Hbase子平台,Hive子平台,HadoopMapReduce子平台;其中Hadoop分布式文件系统(HDFS),支持对应用数据高吞吐量访问的分布式文件系统;其中HadoopMapReduce是基于YARN的大数据并行处理系统;其中Hive是用于Hadoop的一个数据仓库系统,它提供了类似于SQL的查询语言,通过使用该语言,可以方便地进行数据汇总,特定查询以及分析存放在Hadoop兼容文件系统中的大数据;其中Hbase是一种分布的、可伸缩的大数据储存库,支持随机、实时读/写访问;其中ZooKeeper是一种集中服务,其用于维护配置信息,命名,提供分布式同步,以及提供分组服务,安装这些项目,并手动地将它们集成到Hadoop中。
3.如权利要求1所述,一种基于大数据的挖掘平台的构建方法,其中Java驱动引擎包括如下几个模块:分布式数据缓存管理模块,数据可视化视图管理、配置引擎模块;
所述分布式数据缓存管理模块,包括可扩展模块和大数据底层引擎模块,其中可扩展模块包括ORM数据持久模块,MySQL数据驱动引擎和Druid数据源连接池引擎;其中ORM数据持久模块是为整个项目提供一个高层、统一、安全和并发的数据持久机制,完成对各种数据进行持久化的编程工作,并为系统业务逻辑层提供服务,合理的数据持久层和设计能够简化数据增、删、改、查等功能的开发过程,同时又不丧失多层结构的天然优势,继承延续J2EE特有的可伸缩性和可扩展性;其中MySQL数据驱动引擎包含Innodb和MyIASM两种引擎,MyIASM是MySQL默认的引擎,但是它没有提供对数据库事务的支持,也不支持行级锁和外键,Innodb引擎提供了对数据库ACID事务的支持,并且实现了SQL标准的四种隔离级别;其中Druid数据源连接池引擎可以监控数据库访问性能,Druid内置提供了一个功能强大的StatFilter插件,能够详细统计SQL的执行性能,还可对数据库密码加密,直接把数据库密码写在配置文件中,容易导致安全问题,DruidDruiver和DruidDataSource都支持PasswordCallback,Druid提供了不同的LogFilter,能够支持Common-Logging、Log4j和JdkLog,可以按需要选择相应的LogFilter,监控应用的数据库访问情况;其中大数据底层引擎模块包括Hadoop、Hive、Hbase数据源连接管理引擎和Hadoop、Hive、Hbase驱动引擎,其中Hadoop、Hive、Hbase数据源连接管理引擎从体系架构到数据定义到数据存储再到数据处理,为Hadoop平台上大规模的数据存储和任务处理打下基础,并通过MR来实现对分布式并行任务处理的程序支持;其中Hadoop、Hive、Hbase驱动引擎在遇到对数据进行一连串的操作时只需要定义好各个action,然后把他们串在一个工作流里面即可以自动执行;
所述数据可视化视图管理、配置引擎包括用户管理模块,区域、机构管理模块,权限管理模块,站台设置管理模块,日志、其他管理模块,以上各模块将存储的数据分类,并作相应的配置。
4.如权利要求1所述,可视化展示与应用层包括展示层面和应用层面;所述展示层面指在PC端和移动端来展示,通过主题和图表的方式,或者通过计算机对信息进行更高层次的提炼,形成信息简报。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州铭诚计算机科技有限公司,未经广州铭诚计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610113818.3/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
 - 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
 - 数据发送方法、数据发送系统、数据发送装置以及数据结构
 - 数据显示系统、数据中继设备、数据中继方法及数据系统
 - 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
 - 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
 - 数据发送和数据接收设备、数据发送和数据接收方法
 - 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
 - 数据发送方法、数据再现方法、数据发送装置及数据再现装置
 - 数据发送方法、数据再现方法、数据发送装置及数据再现装置
 





