[发明专利]一种基于k阶混合马尔可夫模型的Web页面访问预测方法有效

专利信息
申请号: 201110200145.2 申请日: 2011-07-18
公开(公告)号: CN102262661A 公开(公告)日: 2011-11-30
发明(设计)人: 顾庆;任颖新;汤九斌;陈道蓄 申请(专利权)人: 南京大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 江苏圣典律师事务所 32237 代理人: 贺翔
地址: 210093*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 混合 马尔可夫 模型 web 页面 访问 预测 方法
【说明书】:

技术领域

发明涉及Web页面访问的个性化预测技术,特别针对互联网时代Web服务器信息越来越庞大和复杂,用户访问量越来越大的情况;需要根据用户的访问特点确定用户下一步可能访问的页面,帮助用户更快更好的找到所需要的信息;同时辅助Web服务器预先缓存用户需要的页面,改善页面链接结构,从而提高服务器访问效率。

背景技术

伴随着互联网的快速发展,万维网(World Wide Web)已成为一个世界范围内的超媒体信息获取平台,人们越来越依赖于Web来获取各种信息,而浏览Web也已成为人们日常生活的一部分。一个完整的Web应用包括Web服务器、客户端浏览器、完成客户端和服务器间通信的HTTP协议、用于描述Web页面的超文本标记语言HTML和统一资源定位符URL。随着Web应用规模的不断扩大,Web服务器上所包含的页面越来越多,Web页面的组织结构也越来越复杂。用户很容易迷失在信息的海洋里。如何能让用户更快更好地找到自己所需要的信息;让Web服务器能够根据用户使用习惯提供个性化服务以提升服务质量,成为目前Web应用领域需要解决的问题。

发明内容

本发明所要解决的技术问题是提供一种根据用户历史访问特征来对Web访问进行预测的方法,同时能够根据用户当前的访问情况,预测或推荐用户下一步将要访问的页面(集合)。

为实现上述目的,本发明采用如下的步骤:

1)首先收集和整理Web服务器访问日志数据;针对日志中的每一项访问记录,识别客户端浏览器和用户;排除无意义的访问数据,如机器人和爬虫等自动程序对Web服务器的访问记录、非页面访问记录等,根据记录析取访问操作o=<u,x,t>,其中u表示用户、x表示Web页面、t表示页面访问时间;

2)然后识别用户会话S,用于组建Web日志数据库,储备用于Web页面访问预测的历史数据;

3)根据预测目标从数据库中选取和组织日志数据,按会话整理和组织(k+1)元组集合;

4)建立k阶混合马尔可夫模型,并采用最大期望算法(Expectation-Maximization)训练该k阶混合马尔可夫模型,再基于数据集学习和校准k阶混合马尔可夫模型的参数集;

5)基于目标用户对Web页面的访问操作,识别最近的用户会话,应用训练后的k阶混合马尔可夫模型预测用户下一步访问的Web页面。

上述步骤2)中识别用户会话的过程是:令会话S={o1,o2,...,ol},令会话S中所有操作oi的执行用户相同;然后根据前一访问操作oi=<u,xi,ti>发生的时间ti以及所访问的页面xi,判定下一操作oi+1=<u,xi+1,ti+1>是否属于同一会话S,该判定基于以下三个条件:

·页面xi+1由页面xi引用,即xi+1的URL包含于页面xi中;

·页面xi+1由会话S中所访问过的除xi之外的其他页面tj引用,如xj(j<i,对应的访问操作oj∈S),且tj和ti+1的时间差小于会话阈值(如30分钟);

·页面xi+1没有被会话S中所访问过的页面引用,但前一操作ti和ti+1的时间差小于页面阈值(如5分钟)。

如果满足上述条件之一,则判定操作oi+1属于会话S;否则操作oi+1开启一个新的会话。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110200145.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top