[发明专利]一种网页热点的实时获取方法和系统在审
| 申请号: | 201810160614.4 | 申请日: | 2018-02-26 |
| 公开(公告)号: | CN108415999A | 公开(公告)日: | 2018-08-17 |
| 发明(设计)人: | 朱明亮;李廷威;肖运龙 | 申请(专利权)人: | 广州要啦网络有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 谭英强 |
| 地址: | 510665 广东省*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实时分析 行为数据 大数据流 实时采集 分屏 实时获取 网页 阅读 网页数据分析 用户访问网站 展示 离线处理 热点区域 深度指标 多维 维度 热力 直观 应用 | ||
本发明公开了一种网页热点的实时获取方法和系统,方法包括:实时采集用户访问网站的行为数据;采用大数据流式处理技术对实时采集的行为数据进行实时分析计算,所述实时分析计算包括阅读深度分屏计算和热力图计算;展示实时分析计算的结果。本发明采用大数据流式处理技术对实时采集的行为数据进行实时分析计算,利用了大数据流式处理技术来实时分析用户的行为数据,无需离线处理,能实时高效地展示网页热点的热力图;实时分析计算包括阅读深度分屏计算和热力图计算,通过热力图和分屏的阅读深度指标来更直观和更多维地展示页面的热点区域,维度更丰富。本发明可广泛应用于网页数据分析领域。
技术领域
本发明涉及网页数据分析领域,尤其是一种网页热点的实时获取方法和系统。
背景技术
目前,市面上很多的网页分析工具,例如百度统计、GrowingIO等,均可将网站网页的点击访问数据经抓取、收录、计算分析等处理后以直观的热力图形式将访客热衷的页面区域展现出来。站长可据此热力图对网站架构、内容及访客使用体验甚至是广告位设置等进行相应的调整和优化,以提高网站的投资回报率。
然而,现有技术中热力图在网页分析应用时仍存在着以下问题:
(1)需离线处理,实时性低,造成展示的可视化图形反应时间段不够实时高效;
(2)仅以访客点击偏好为主要维度分析,反映维度比较单一。
发明内容
为解决上述技术问题,本发明的目的在于:提供一种实时高效和维度丰富的网页热点的实时获取方法和系统。
本发明所采取的第一技术方案是:
一种网页热点的实时获取方法,包括以下步骤:
实时采集用户访问网站的行为数据;
采用大数据流式处理技术对实时采集的行为数据进行实时分析计算,所述实时分析计算包括阅读深度分屏计算和热力图计算;
展示实时分析计算的结果。
进一步,所述实时采集用户访问网站的行为数据这一步骤,具体包括:
浏览器实时将用户访问网站的行为数据发送至反向代理服务器;
反向代理服务器将接收的行为数据均衡发送至采集服务器集群;
采集服务器集群将接收的行为数据实时发送至消息队列。
进一步,所述采用大数据流式处理技术对实时采集的行为数据进行实时分析计算这一步骤,具体包括:
流式处理系统实时读取消息队列的数据;
流式处理系统根据实时读取的数据进行阅读深度分屏计算;
流式处理系统根据实时读取的数据进行热力点击图计算。
进一步,所述流式处理系统根据实时读取的数据进行阅读深度分屏计算这一步骤,具体包括:
对实时读取的数据进行快速去重,得到去重后的数据;
以站点id、日期、页面url以及屏数为维度,根据去重后的数据计算分屏的阅读指标,所述分屏的阅读指标包括访客数、页面浏览量、独立ip数、访问时长和行为事件次数;
将分屏的阅读指标实时写入关系型数据库。
进一步,所述流式处理系统根据实时读取的数据进行热力点击图计算这一步骤,具体包括:
从实时读取的数据中获取点击行为的相对坐标;
根据获取的相对坐标计算行为事件在页面区域的坐标比例;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州要啦网络有限公司,未经广州要啦网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810160614.4/2.html,转载请声明来源钻瓜专利网。





