[发明专利]互联网用户主动访问行为轨迹的分析方法有效
| 申请号: | 201410621994.9 | 申请日: | 2014-11-07 | 
| 公开(公告)号: | CN104298782B | 公开(公告)日: | 2017-10-24 | 
| 发明(设计)人: | 孙宏;季海东;赵晓波;董童霖;赵宇龙 | 申请(专利权)人: | 郭磊 | 
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/44 | 
| 代理公司: | 北京市中银律师事务所11423 | 代理人: | 修雪静 | 
| 地址: | 110020 辽宁省*** | 国省代码: | 辽宁;21 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 互联网 用户 主动 访问 行为 轨迹 分析 方法 | ||
技术领域
本发明属于大数据的数据分析和数据挖掘领域,特别是涉及到一个互联网用户主动访问行为轨迹分析的方法。
背景技术
随着互联网、云计算、大数据的迅猛发展,中国的网民数突破了6亿,截止到2014年6月网民达到了6.32亿,手机网民5.27亿,改变了企业的经营模式和管理方式、也改变了个人的生活方式和出行习惯,使人类社会发生了翻天覆地的变化。不论是政府还是企业、不论是银行还是电信运营商各行各业都非常关注人们在互联网的行为甚至行为轨迹,特别是为用户提供个性化服务需要精准刻画客户的兴趣特征,掌握用户在互联网的行为轨迹,达到实现智能管道、智能营销、个性化服务的目的。
人们在互联网的访问行为轨迹包括用户主动行为和非主动行为,用户主动行为是用户本人点击(Click)页面的行为,而非主动用户行为是用户点击(click)页面的同时连带产生附属页面的行为。一般情况,一个主动点击(click)行为连带附加产生成多个页面,即Hits。在一个用户访问行为中,非主动行为产生的页面数是主动行为产生的页面数的几倍、几十倍、甚至几百倍,造成一个访问行为中产生大量的“垃圾”页面,严重影响了精准刻画用户的兴趣特征。目前,解决的办法都是将“垃圾”页面(即非主动行为)设置成黑名单进行过滤,形成PageViews(通常简称PV)来接近主动行为。
因此,本发明就是要解决用户主动访问互联网的行为轨迹问题。
发明内容
鉴于以上存在的问题,本发明的目的在于:提供一种互联网用户主动访问行为轨迹的分析方法,旨在根据用户访问互联网的DPI分光数据,通过构造用户访问行为的会话(Session),分析出哪些是点击页面、哪些是附属页面,解决准确地分析出用户主动访问行为轨迹的问题。
本发明的目的是通过如下技术方案实现:
互联网用户主动访问行为轨迹的分析方法,其特征在于,包括如下步骤:
(1)读取原始数据:从运营商的深度包检测DPI分光数据中读取海量的用户互联网访问记录,生成用户访问记录文件,该访问记录以访问时间为序;
(2)初始赋值:赋值click页面集合中两两页面URL间的最大时间间隔阈值Tmax,同时预置i=1:
(3)确定click页面集合:对于用户的访问可以模拟成用户会话Session,当会话中两两页面URL间的时间间隔≥Tmax时,此间隔点前的页面集合为该用户会话Session中的第i个click页面集合Pi{URL1,URL2,…,URLj,…};
(4)判断click页面:调用“click点击知识库”的知识,根据“click点击页面推理机”推理集合Pi中有无click点击页面。若推理成功,则确认该页面为click点击页面,即URL(i)click←URL(k)knowIedge,其中k为知识库中第k条知识;若推理不成功,则计算集合Pi中的所有页面referer包含集合内其他页面数Count(URLj)referer,取最大的Count(URLj)referer为点击页面,即URL(i)click←Max{Count(URLj)referer};
(5)生成用户行为轨迹:若在用户会话中还有click页面集合,则赋值i←i+1,返回步骤(3)重复构造click页面集合:若用户会话中没有click页面集合,则用户行为轨迹分析完毕,生成该用户主动访问行为轨迹URL(i)click,其中i=1,2,……,N。
步骤(4)中的“click点击知识库”的构造规则包括:
1)知识构成:click点击知识为唯一的URL页面,包括两种情况,一种为“完全URL”:一种为URL中间带通配符的页面集合;比如网站的子频道导航页面构成;
2)知识添加:知识库的初始集建立是通过专业人士大量学习确认构成。新知识的添加是通过Max{Count(URLj)referer}计算经人工确认后添加到知识库中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郭磊,未经郭磊许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410621994.9/2.html,转载请声明来源钻瓜专利网。





