[发明专利]一种基于k阶混合马尔可夫模型的Web页面访问预测方法有效
| 申请号: | 201110200145.2 | 申请日: | 2011-07-18 |
| 公开(公告)号: | CN102262661A | 公开(公告)日: | 2011-11-30 |
| 发明(设计)人: | 顾庆;任颖新;汤九斌;陈道蓄 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 贺翔 |
| 地址: | 210093*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 混合 马尔可夫 模型 web 页面 访问 预测 方法 | ||
1.一种基于k阶混合马尔可夫模型的Web页面访问预测方法,其特征在于包含以下步骤:
1)首先收集和整理Web服务器访问日志数据,针对日志中的每一项访问记录,识别客户端浏览器和用户;排除无意义的访问数据;根据每一项记录析取访问操作o=<u,x,t>,其中u表示用户、x表示Web页面、t表示页面访问时间;
2)识别用户会话S,用于组建Web日志数据库,储备用于Web页面访问预测的历史数据;
3)根据预测目标从数据库中选取和组织日志数据,按会话整理和组织(k+1)元组集合;
4)建立k阶混合马尔可夫模型,并采用最大期望算法训练该k阶混合马尔可夫模型,再基于数据集学习和校准k阶混合马尔可夫模型的参数集;
5)基于目标用户对Web页面的访问操作,识别最近的用户会话,应用训练后的k阶混合马尔可夫模型预测用户下一步访问的Web页面。
2.根据权利要求1所述的基于k阶混合马尔可夫模型的Web页面访问预测方法,其特征在于步骤1)所述的无意义的访问数据包括排除非页面访问记录、以及由爬虫等自动程序产生的访问记录。
3.根据权利要求1或2所述的基于k阶混合马尔可夫模型的Web页面访问预测方法,其特征在于步骤2)的识别用户会话的过程是:令会话S={o1,o2,...,ol},所有操作oi的执行用户相同,然后根据前一访问操作oi=<u,xi,ti>发生的时间ti以及所访问的页面xi,判定下一操作oi+1=<u,xi+1,ti+1>是否属于同一会话S,该判定基于以下三个条件:
·页面xi+1由页面xi引用,即xi+1的URL包含于页面xi中;
·页面xi+1由会话S中所访问过的除xi之外的其他页面tj引用,且tj和ti+1的时间差小于设定的会话阈值;
·页面xi+1没有被会话S中所访问过的页面引用,但前一操作ti和ti+1的时间差小于设定的页面阈值。
如果满足上述条件之一,则判定操作oi+1属于会话S;否则操作oi+1开启一个新的会话。
4.根据权利要求1或2所述的基于k阶混合马尔可夫模型的Web页面访问预测方法,其特征在于步骤3)中按照预测目标选取和组织日志数据的流程是:首先基于预测目标选定用户并获取会话数据;然后以会话为单位抽取(k+1)元组X=<x1,x2,...,xk,xk+1>,每一个(k+1)元组属于同一个会话,包含会话中用户连续访问的一组页面;相邻两个(k+1)元组的访问页面允许部分重叠;最后所有(k+1)元组构成一个数据集合
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110200145.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于斜齿圆锥齿轮的建模方法
- 下一篇:一种制备泰拉霉素的新方法





