[发明专利]一种基于云服务器的大数据中心处理系统在审

专利信息
申请号: 202011176869.3 申请日: 2020-10-29
公开(公告)号: CN112287199A 公开(公告)日: 2021-01-29
发明(设计)人: 焦惠颖 申请(专利权)人: 黑龙江稻榛通网络技术服务有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/955;G06K9/62
代理公司: 黑龙江立超同创知识产权代理有限责任公司 23217 代理人: 杨立超
地址: 150900 黑龙江省*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 服务器 数据中心 处理 系统
【说明书】:

一种基于云服务器的大数据中心处理系统,属于数据处理技术领域,用以解决现有的数据处理系统不能解决对海量网络流量数据的分布式存储和高效准确的数据挖掘问题。本发明主要运用数据挖掘和云计算相关技术,建立了基于云计算的网站分类子系统和网站推荐子系统,网站分类子系统极大的降低了分析处理时间,扩充了流量信息中的用户网站偏好维度,具有高的扩展性,可以对任何字段进行网站分类并会根据分类结果扩充库识别模块,加快分类速度,还可以通过增加核心分类算法,完成对不同分类任务的支持;网站推荐子系统是基于移动互联网海量用户网站偏好数据,对用户偏好进行挖掘和推荐,具备较高的可靠性和算法有效性,可对多种推荐任务进行应对。

技术领域

本发明涉及数据处理技术领域,具体涉及一种基于云服务器的大数据中心处理系统。

技术背景

随着云时代的来临,大数据也吸引了越来越多的关注。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。随着宽带网络技术的发展,网络用户数量逐年增加;与此同时,借助于移动网络的升级和智能手机的推广,移动互联网也发展迅猛,用户增长强劲。网络已经成为了我们生活中不可缺少的一部分。网络是庞大的,更是复杂的,不论是对新兴的移动互联网还是不断升级的宽带网络都还有认识不全面之处。而网络流量监测技术则是一把打开网络流量分析大门的钥匙,将网络流量监控技术获取的海量网络流量信息,与云计算、数据挖掘技术相结合,可以深入分析和挖掘网络的流量特征和用户特征。基于网络流量日志的分析挖掘是反映网络状况,进行网络优化以及进行用户偏好分析的主要方法,但是在大数据时代,不论是在处理时间,还是在处理的数据量上,传统的针对网络流量日志的分析方法逐渐不能胜任,如何面对海量的移动互联网数据完成有效且高效的分析和挖掘是一项艰巨的任务。

发明内容

鉴于以上问题,本发明提出一种基于云服务器的大数据中心处理系统,用以解决现有的数据处理系统不能解决对海量网络流量数据的分布式存储和高效准确的数据挖掘问题。

该系统包括网站分类子系统和网站推荐子系统;

所述网站分类子系统包括数据导入模块、爬虫模块、库识别模块、机器学习识别模块和库更新模块;其中,所述数据导入模块用于连接外部数据和系统,包括数据预处理导入子模块和直接导入子模块;所述爬虫模块用于读入移动互联网流量记录,执行网页爬虫程序;所述库识别模块用于使用基于库的识别方法直接对URL进行识别,负责识别结果表和未识别结果表的更新和维护;所述机器学习识别模块用于将经过库识别分类的网页作为训练集,快速准确的对网站分类系统的分类模型进行建模,使用建立的模型对未识别URL进行分类;所述库更新模块用于基于机器学习识别结果,提取出正确分类的URL,对库识别中的库文件进行更新和扩充;

所述网站推荐子系统包括数据预处理模块、推荐算法模块和上层模块;所述数据预处理模块用于对数据进行存储和预处理;所述推荐算法模块用于添加推荐引擎算法,获取推荐算法模型;所述上层模块用于网站推荐子系统结果的输出和展示。

进一步地,所述数据预处理导入子模块中对数据进行预处理包括组合、过滤和去重。

进一步地,所述机器学习识别模块包括中文分词子模块、特征选择子模块和机器学习算法子模块。

进一步地,所述机器学习算法子模块中包括三种分类模型组件和两种算法组件,其中,分类模型组件包括多类二值分类模型、与多类软分类模型和两两多类软分类模型;算法组件包括朴素贝叶斯组件和LDA组件。

进一步地,所述数据预处理模块对数据进行预处理包括数据清理、数据集成、数据转换和数据规约,其中,数据清理是清除噪声和处理不完整数据;数据集成包括实体识别、数据冗余和数据值冲突检测与处理;数据转换包括单位换算、数据泛化、规范化和属性构造;数据规约包括维度归约、数值归约、数据抽样和离散化。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黑龙江稻榛通网络技术服务有限公司,未经黑龙江稻榛通网络技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011176869.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top