[发明专利]一种基于网络日志的用户行为分析系统及方法在审
申请号: | 201910801141.6 | 申请日: | 2019-08-28 |
公开(公告)号: | CN110717089A | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 姜松浩;王博;凡文举;赵丽;孙晋龙;孙发强;武义涵 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;长安通信科技有限责任公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958 |
代理公司: | 11681 北京惠智天成知识产权代理事务所(特殊普通合伙) | 代理人: | 刘莹莹 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户行为分析系统 分布式数据采集 数据分析模块 互联网用户 管理模块 日志信息 数据清洗 网络日志 网站显示 网站资源 行为趋势 行为日志 页面模块 互联网 日志 多层 网站 个性化 统计 分析 量化 网络 开发 | ||
1.一种基于网络日志的用户行为分析系统,其特征在于,所述系统包括分布式数据采集模块、基于hdfs的多层数据清洗和管理模块、数据分析模块和网站显示页面模块;
所述分布式数据采集模块用于对各领域不同网站进行用户行为数据的抓取,构建成基本数据层;
所述基于hdfs的多层数据清洗和管理模块用于对所述分布式数据采集模块提供的不同领域数据进行划分,针对数据特性,开发各自的数据清洗规则以及数据计算的算法;
所述数据分析模块用于对存储于hdfs之上清洗之后的数据进行统计分析,得出整个分类、领域、系统的宏观数据;
所述网站显示页面模块用于展示所述数据分析模块提供的宏观数据。
2.根据权利要求1所述的基于网络日志的用户行为分析系统,其特征在于,所述分布式数据采集模块包括网络爬虫单元,所述网络爬虫单元用于获取用户在多个领域的行为路径数据。
3.根据权利要求2所述的基于网络日志的用户行为分析系统,其特征在于,所述网络爬虫单元包括自动报警单元,所述自动报警单元用于对爬虫数据进行实时监控。
4.根据权利要求1所述的基于网络日志的用户行为分析系统,其特征在于,所述网站显示页面模块包括首页、系统覆盖数据的多角度展示页面、不同领域网站信息的分类展示页面、单个网站单个用户数据的搜索展示页面。
5.根据权利要求4所述的基于网络日志的用户行为分析系统,其特征在于,所述系统覆盖数据的多角度展示页面包括系统覆盖的网站量、用户量、分析的数据量、网站按领域划分的占比、用户的年龄分布和地域分布信息。
6.根据权利要求4所述的基于网络日志的用户行为分析系统,其特征在于,所述不同领域网站信息的分类展示页面包括每个领域下top10网站的详情信息以及对应每个网站的流量占比、活跃用户量、PV、UV、PR值。
7.一种基于网络日志的用户行为分析方法,其特征在于,所述方法包括如下步骤:
(1)通过分布式数据采集模块,在网上对各领域不同网站进行用户行为数据的抓取,构建成基本数据层;
(2)通过对不同领域数据的划分,针对数据特性以及行业规则,开发各自的数据清洗规则以及数据计算的算法;
(3)通过对用户行为信息的聚合分组、单用户行为数据的量化、多用户数据的分析、网站信息关系的组合、单网站数据的量化、多网站数据的分析、用户与网站之间的关联组合形成结构化数据;
(4)使用推荐算法,将用户对单个网站的浏览次数进行层次划分,形成网站浏览等级,通过对该网站所覆盖用户访问次数求和得出该网站总访问量,根据总访问量形成网站的排名顺序,网站浏览总数比网站排名得出网站热度,网站浏览等级乘以网站热度得出该用户对该网站的兴趣度,根据不同网站之间的网站描述,使用分词将描述进行分词,计算两者之间的交集和对称差集,交集比对称差集得出彼此之间的相似度,使用用户的兴趣度乘以该网站和用户浏览最高网站的相似度,得出推荐值,最后将推荐值进行归一化并排序取topN;
(5)根据形成的个体数据,使用大数据计算技术,对网站以及用户数据进行汇总,形成量化数据。
8.根据权利要求7所述的基于网络日志的用户行为分析方法,其特征在于,在步骤(2)中,在数据清洗时,对一个用户在多个网站、多个领域的行为信息进行聚合,最终一个用户在单次的数据分析流程中只保留一条数据,便于对用户进行个性化的分析;针对网站数据存储网站详情信息、网站所包含的用户ID两份数据。
9.根据权利要求7所述的基于网络日志的用户行为分析方法,其特征在于,在步骤(4)中,分别使用了基于用户的协同过滤和基于网站的协同过滤来进行用户和用户之间行为相似度、网站和网站之间描述相似度的分析,进而进行网站及用户的个性化推荐,以及为宏观的数据分析做基层的数据。
10.根据权利要求9所述的基于网络日志的用户行为分析方法,其特征在于,采用描述信息相似度算法对用户、网站相似度分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;长安通信科技有限责任公司,未经国家计算机网络与信息安全管理中心;长安通信科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910801141.6/1.html,转载请声明来源钻瓜专利网。