[发明专利]一种基于网络日志的用户行为分析系统及方法在审
申请号: | 201910801141.6 | 申请日: | 2019-08-28 |
公开(公告)号: | CN110717089A | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 姜松浩;王博;凡文举;赵丽;孙晋龙;孙发强;武义涵 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;长安通信科技有限责任公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958 |
代理公司: | 11681 北京惠智天成知识产权代理事务所(特殊普通合伙) | 代理人: | 刘莹莹 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户行为分析系统 分布式数据采集 数据分析模块 互联网用户 管理模块 日志信息 数据清洗 网络日志 网站显示 网站资源 行为趋势 行为日志 页面模块 互联网 日志 多层 网站 个性化 统计 分析 量化 网络 开发 | ||
本发明公开了一种基于网络日志的用户行为分析系统及方法。所述系统包括分布式数据采集模块、基于hdfs的多层数据清洗和管理模块、数据分析模块和网站显示页面模块。所述系统基于用户在互联网上的行为所产生的日志而开发的,该系统通过收集用户在互联网上的行为日志,对这些日志信息进行充分的分析与统计,得出用户在网络上的行为趋势及变动方向、网站资源的统计等方面的信息,实现对互联网用户、网站的量化以及个性化分析。
技术领域
本发明属于互联网领域,具体涉及一种基于网络日志的用户行为分析方法及系统。
背景技术
随着互联网的发展,在电子商务、电子政务、电子服务、休闲娱乐等各个领域都产生了大量的用户网站,用户在网络上浏览这些网站及页面的时候就会产生海量的行为日志,这些海量的日志信息包含了大量的隐藏价值,通过对用户行为信息的研究,可以从中发现用户在访问网站时所表现出来的规律、个性化的习惯等信息,从而为提升用户体验、精准营销、信息推送等提供科学、准确的依据,同时可以根据规律和用户行为偏好,对网站的页面布局、功能完善、系统架构做出更加优化的调整。针对用户行为的研究与应用,最有效的手段是记录用户的所有行为带来的全部用户行为信息,并对全部的用户行为信息进行统计、分析。但是用户的各种行为在网络上分散开来,目前很多国内外的用户行为分析系统都是基于部分网站的web日志进行的分析,针对大规模、不同类型的网站很难进行统一的分析与挖掘。
发明内容
针对背景技术中的问题,本发明提出了一种于网络日志的用户行为分析系统。本发明结合现有的分布式网络爬虫、云计算、知识发现等相关技术,实现了从分散的行为日志的获取,到各类别数据统一的清洗和数据结构的统一设计,再到原始数据的统一存储,进而使用大数据计算加算法分析的手段对数据进行处理,最终从庞大的用户行为信息中得出各行为之间的关系、发现突出的信号点,将这些看似分散的用户行为转化为有价值的数据产品。
为了实现上述目的,本发明的具体技术方案如下:
一种基于网络日志的用户行为分析系统,所述系统包括分布式数据采集模块、基于hdfs的多层数据清洗和管理模块、数据分析模块和网站显示页面模块;
所述分布式数据采集模块用于对各领域不同网站进行用户行为数据的抓取,构建成基本数据层;
所述基于hdfs的多层数据清洗和管理模块用于对不同领域数据的划分,针对数据特性,开发各自的数据清洗规则以及数据计算的算法;
所述数据分析模块用于根据细化到个体的数据进行统计分析,得出整个分类、领域、系统的宏观数据;
所述网站显示页面模块用于展示所述系统对所有用户行为分析之后的统计结果;
其中分布式数据采集模块作为该系统的数据来源,是整个系统的数据支撑模块,基于hdfs的多层数据清洗和管理模块是对分布式数据采集模块所提供的数据的深层次的清洗,形成规范化、统一性的数据来进行管理和存储,由数据分析模块对存储于hdfs之上清洗之后的数据进行统计分析,得出可用于网站显示的宏观数据。
作为一种优选的方案,所述分布式数据采集模块包括网络爬虫单元,所述网络爬虫单元用于获取用户在多个领域的行为路径数据;
所述分布式数据采集模块还包括自动报警单元,所述自动报警单元用于对爬虫数据进行实时监控。所述自动报警单元是在分布式爬虫系统之上kfaka和mongodb相结合开发的。
作为一种优选的方案,所述网站显示页面模块包括首页、系统覆盖数据的多角度展示页面、不同领域网站信息的分类展示页面、单个网站单个用户数据的搜索展示页面。
作为一种优选的方案,所述系统覆盖数据的多角度展示页面包括系统覆盖的网站量、用户量、分析的数据量、网站按领域划分的占比、用户的年龄分布和地域分布信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;长安通信科技有限责任公司,未经国家计算机网络与信息安全管理中心;长安通信科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910801141.6/2.html,转载请声明来源钻瓜专利网。