[发明专利]一种基于URL的用户行为分析方法和装置在审
| 申请号: | 201610052116.9 | 申请日: | 2016-01-27 | 
| 公开(公告)号: | CN105786965A | 公开(公告)日: | 2016-07-20 | 
| 发明(设计)人: | 丁文涛;尹嘉路 | 申请(专利权)人: | 久远谦长(北京)技术服务有限公司 | 
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F11/34 | 
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 | 
| 地址: | 100085 北京市昌*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 url 用户 行为 分析 方法 装置 | ||
技术领域
本发明属于互联网领域,属于一种基于URL的用户行为分析方法和装置。
背景技术
URL(UniformResourceLocator:统一资源定位器),其在用户访问Internet 时发挥着极其重要的作用,随着互联网技术的高速发展,运营商每天产生的 URL日志量达到了TB级,伴随着大数据技术的成熟,处理大量URL日志成 为可能,通过对大量URL日志的处理,可以分析、预测用户行为、分析网站 用户流量等信息。
发明内容
基于上述问题,本发明通过大数据存储、分析平台Hadoop,使用用户行 为分析方法,结合URL日志以及爬虫信息,实现了对用户的行为分析及预测。
本发明解决上述技术问题所采取的技术方案如下:
一种基于URL的用户行为分析方法,包括:
步骤1)获取网站的原始URL日志,对其进行格式化分解,
分解后的URL日志中至少包括:访问时间、用户标记、URL地址、商品 的唯一标识SKUID;
步骤2)根据分解结果标记用户的行为、提取URL中对应商品的SKUID;
步骤3)获取网站的爬虫数据,所述爬虫数据中包括:爬取信息日期、URL 地址、商品品牌、商品品类、商品价格等;
步骤4)结合所述爬虫数据,统计网站中用户关于品类和品牌流转、网站 UV、PV等信息。
优选的是,所述步骤4)中,具体包括:
从所述格式化分解后的URL日志和爬虫数据中,获取到用户访问的商品 网址和对应的品类和品牌信息;
当某一用户在访问了某一商品后,在默认时间内又访问了同一个品类中 的不同品牌,则标记其发生了一次品牌流转;或者,当在默认时间内又访问了 不同品类,则认为其发生了一次品类流转;通过对大量用户的行为分析,计算 出网站的品类、品牌的流转信息。
优选的是,所述步骤4)中,具体包括:
获取URL日志中的某一URL地址对应的网站,统计访问该网站的访问 用户和对应的网页页面数,根据用户个数和访问页面数计算网站UV、PV等 信息。
优选的是,步骤1)至步骤4),是在Hadoop计算平台上进行计算。
优选的是,步骤2)中,基于用户行为分析算法标记用户的行为。
一种基于URL的用户行为分析装置,包括:
日志处理单元,用于获取网站的原始URL日志,对其进行格式化分解,
分解后的URL日志中至少包括:访问时间、用户标记、URL地址、商品 的唯一标识SKUID;
日志分析单元,用于根据分解结果标记用户的行为、提取URL中对应商 品的SKUID;
信息获取单元,用于获取网站的爬虫数据,所述爬虫数据中包括:爬取信 息日期、URL地址、商品品牌、商品品类、商品价格;
统计分析单元,用于结合所述爬虫数据,统计网站中用户关于品类和品牌 流转、网站UV、PV等信息。
优选的是,所述统计分析单元,进一步:
从所述格式化分解后的URL日志和爬虫数据中,获取到用户访问的商品 网址和对应的品类和品牌等具体信息;
当某一用户在访问了某一商品后,在默认时间内又访问了同一个品类中 的不同品牌,则标记其发生了一次品牌流转;当在默认时间内又访问了不同品 类,则认为其发生了一次品类流转;通过对大量用户的行为分析,计算出网站 的品类、品牌的流转信息。
优选的是,所述统计分析单元,进一步:
获取URL日志中的某一URL地址对应的网站,统计访问该网站的访问 用户和对应的网页页面数,根据用户个数和访问页面数计算网站UV、PV等 信息。
优选的是,所述日志处理单元、日志分析单元和统计分析单元,是在 Hadoop计算平台上进行计算。
优选的是,所述日志分析单元,基于用户行为分析算法标记用户的行为。
本发明采取了上述方案以后,基于Hadoop数据分析平台,结合原始URL 日志和爬虫数据,通过用户行为分析算法,分析、预测用户行为等信息实现了 大数据平台对用户行为的分析、预测,具有很好的效果,同时有较高的参考价 值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于久远谦长(北京)技术服务有限公司,未经久远谦长(北京)技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610052116.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多媒体广告设计系统
- 下一篇:一种数字对象生成的方法及装置





