[发明专利]一种基于消息队列的海量用户行为数据采集方法与系统在审
申请号: | 201510036709.1 | 申请日: | 2015-01-23 |
公开(公告)号: | CN104579789A | 公开(公告)日: | 2015-04-29 |
发明(设计)人: | 余敬龙 | 申请(专利权)人: | 广东能龙教育股份有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/08 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 张海文 |
地址: | 528403 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 消息 队列 海量 用户 行为 数据 采集 方法 系统 | ||
技术领域
本发明涉及互联网领域,尤其是一种基于消息队列的海量用户行为数据采集方法与系统。
背景技术
在计算机的数据处理能力不断上升,大数据成为时代主题的背景下,用户行为数据收集及分析变得越来越重要,收集的数据量也越来越大。如:用户名称、用户ip、请求时间、请求地址、响应时间、页面的使用轨迹、跳转页面、浏览器信息、系统的版本等等,因而服务器端的采集系统面临越来越大的考验。
在现有的技术中,已经出现对海量的用户行为数据进行采集技术,技术的处理方式一般是对服务器端日志进行异步处理保存在数据库或者其它存储系统中,然后再使用并行处理系统对其海量数据进行后期整理分析、挖掘,结果反馈到如:推荐系统、监控系统、报表系统等使用。这样的处理过程导致某些需要实时反馈的数据得不到实时反馈,处理效率不高。
有鉴于此,现有技术有待改进和提高。
发明内容
鉴于上述技术问题的不足,本发明的目的在于提供一种基于消息队列的海量用户行为数据采集方法与系统,意在于对现有技术中基于异步日志分析的用户行为采集系统的实时性不好,处理效率不高的问题进行改进,提供稳定、高效、实时性好的海量用户行为数据采集方法与系统。
本发明采用的技术方案是:
一种基于消息队列的海量用户行为数据采集方法,其特征在于:包括以下步骤
S1、使用植入脚本在页面中把用户行为数据收集为日志记录并把记录数据通过Http提交到服务器端后台;
S2、对日志记录直接通过日志拦截器进行预处理;
S3、对S2经过预处理的用户行为数据直接发送到消息队列中,等待处理器采集;
S4、用户行为处理器订阅S3中消息队列的数据并进行处理,用户行为处理器根据S3消息队列的数据量动态增加处理器以加快用户行为数据的采集。
所述步骤S2中预处理是指日志拦截器把数据封装成以单一页面的行为数据为单位的数据包。
所述步骤S2中,日志拦截器会把不需要处理的数据过滤,及对需要处理的数据解释成数据包。
所述数据包中的字段包括:请求用户、请求ip、请求参数、请求地址、页面的使用轨迹、跳转页面、浏览器信息、系统信息、响应时间中的一种或多种。
所述步骤S3中消息队列的入列与出列速度为毫秒级,并且消息队列在数据高峰期对数据缓冲处理。
所述步骤S4中用户行为处理器是对需要进行实时反馈的数据进行处理。
所述需要进行实时反馈的数据为pv、uv、热门资源、热门关键字、页面平均访问时间中的一种或多种。
所述步骤S4针对不同的业务需要定制不同的处理器,且处理器是可分布式并行处理的,根据消息队列的缓存的数量进行增加与减少,结果实时反馈到相应的系统进入实时反馈,并且把原始数据包批量写入存储系统。
本发明还包括与上述采集方法同一构思的技术方案,一种基于消息队列的海量用户行为数据采集系统,包括
日志拦截模块,用于用户行为数据的过滤及预处理;
消息队列系统,用户行为数据包的中转、分发;
用户行为处理器模块,用于实时用户行为数据的处理、结果反馈及原始数据的批量存储。
本发明的有益效果是:
本发明提供的基于消息队列的用户行为数据采集方法与系统,把消息队列引入到海量的用户行为数据采集中,充分利用消息队列:数据传输高效、数据吞吐量大、横向扩展性好等特点用于海量的用户行为数据采集,提高了数据采集实时性及数据采集效率,特别是互联网海量的用户行为采集提供了稳定、高效及实时性好的解决方案。
附图说明
下面结合附图对本发明的具体实施方式做进一步的说明。
图1是本发明用户行为数据采集方法与系统的原理框图。
具体实施方式
参考图1所示,为本发明的最佳实施案例提供的基于消息队列的海量用户行为数据采集方法与系统,其包括以下步骤:
S1、植入Javascript脚本在页面中,通过内置在浏览器的对象收集所需要的信息,如页面的title、referer、浏览器语言、cookies信息、页面的加载时间、登出的页面及事件跟踪信息等等,把收集到的信息按预定义的格式编码、拼接,通过js创建一个Image对象,将Image对象的src属性指向用户行为数据服务器并携带上拼接好的参数,如:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东能龙教育股份有限公司,未经广东能龙教育股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510036709.1/2.html,转载请声明来源钻瓜专利网。