[发明专利]一种基于实时更新的用户浏览行为采集方式在审
申请号: | 201510101492.8 | 申请日: | 2015-03-09 |
公开(公告)号: | CN104636245A | 公开(公告)日: | 2015-05-20 |
发明(设计)人: | 焦毓葳;徐宏伟;左少标 | 申请(专利权)人: | 浪潮集团有限公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34;G06F9/44 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实时 更新 用户 浏览 行为 采集 方式 | ||
技术领域
本发明涉及计算机数据采集技术领域,具体地说是一种基于实时更新的用户浏览行为采集方式。
背景技术
目前,简单地直接从web服务器的日志文件采集web使用数据进行web使用挖掘研究并不可取,它存在很大的弊端:
1)海量的日志对web用户使用数据而言是海量的垃圾数据。基于web日志的使用挖掘就必须用数据净化操作对这些海量数据进行数据预处理,剩下的可用数据约为5%。可见,庞大的web日志文件是没有多少利用价值的,可以说是垃圾数据。
2)用户在浏览页面的时候,页面记录不完整。web日志文件是对每一个到达web服务器的HTTP请求的记录,Internet上存在着各种各样的缓存机制,导致了web日志文件中对用户浏览页面记录的不完整性。
3)无法获取用户准确的浏览时间。
发明内容
本发明的技术任务是提供一种基于实时更新的用户浏览行为采集方式。
本发明的技术任务是按以下方式实现的,该采集方式包括服务器端数据采集和客户端数据采集两种方式,其中服务器端数据采集包括主动式服务器端数据采集和被动式服务器端数据采集;
将采集的数据进行数据处理,形成数据仓库;根据不同的产业,形成不同的数据处理模式和分析模式,按照模式进行分析,最终形成有价值的模式或规律。
所述的主动式服务器端数据采集:将WEB服务器和代理服务器软件自动记录的日志文件和用户的使用数据收集作为数据源;
被动式服务器端数据采集:在海量的日志文件基础上进行数据预处理,进行数据清洗、用户识别、会话识别、事物识别和路径补充,以获得准确和完整的用户使用数据。
所述的客户端数据采集是通过java applet技术、javaScript 技术、Plug-in技术和页面跟踪帧技术来实现的。
所述的java applet技术的使用方法如下:
应用java applet技术在客户端对用户使用信息进行采集,客户端浏览器要下载并安装SUN SVM插件,在每个需要追踪的网页分别添加applet程序代码。
所述的javaScript 技术的使用方法如下:
客户端可以通过应用javaScript 技术中XMLHttpRequest对象向服务器发送请求,当用户浏览缓存里面的页面或者离开网站时,触发页面ONUNLOAD事件,保证用户浏览记录的完整性。
所述的页面跟踪帧技术的使用方法如下:
通过一个嵌入在网页内的隐含帧追踪用户的使用,记录用户的IP、访问页面的使用信息,随时将客户端浏览信息以WinSockTCP的方式传到服务器。
本发明的一种基于实时更新的用户浏览行为采集方式和现有技术相比,可以有效的在海量垃圾数据中选取需要的用户浏览数据,避免了无用繁杂的存储过程和后期大批量数据处理;能够完整记录页面的内容,保持页面记录的完整性,并且可以准确地获取用户的浏览时间,在应用服务器的内部分别进行识别和采集。
附图说明
附图1为一种基于实时更新的用户浏览行为采集方式的流程框图。
具体实施方式
实施例1:
该采集方式包括服务器端数据采集和客户端数据采集两种方式,其中服务器端数据采集包括主动式服务器端数据采集和被动式服务器端数据采集;
将采集的数据进行数据处理,形成数据仓库;根据不同的产业,形成不同的数据处理模式和分析模式,按照模式进行分析,最终形成有价值的模式或规律。
所述的主动式服务器端数据采集:将WEB服务器和代理服务器软件自动记录的日志文件和用户的使用数据收集作为数据源;
被动式服务器端数据采集:在海量的日志文件基础上进行数据预处理,进行数据清洗、用户识别、会话识别、事物识别和路径补充,以获得准确和完整的用户使用数据。
所述的客户端数据采集是通过java applet技术、javaScript 技术、Plug-in技术和页面跟踪帧技术来实现的。
所述的java applet技术的使用方法如下:
应用java applet技术在客户端对用户使用信息进行采集,客户端浏览器要下载并安装SUN SVM插件,在每个需要追踪的网页分别添加applet程序代码。
所述的javaScript 技术的使用方法如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮集团有限公司,未经浪潮集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510101492.8/2.html,转载请声明来源钻瓜专利网。