[发明专利]多核环境下基于海量日志的类似行为模式用户识别方法有效
申请号: | 201110242122.8 | 申请日: | 2011-08-23 |
公开(公告)号: | CN102314491A | 公开(公告)日: | 2012-01-11 |
发明(设计)人: | 俞东进;李万清;郑苏杭 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多核 环境 基于 海量 日志 类似 行为 模式 用户 识别 方法 | ||
技术领域
本发明属于数据挖据技术领域,具体涉及到一种多核环境下基于海量日志的类似行为模式用户识别方法。
背景技术
因特网已经成为一个巨大的、分布广泛的和全球性的信息服务中心,正逐渐渗透到人们的日常工作、生活及其它领域。大量的用户通过访问电子商务网站进行信息查询和购买商品。通过分析Web服务器中的访问日志文件,从而发现用户访问站点的浏览规律,可以帮助人们理解不同用户的行为模式,最终为改进Web站点并获取更大的经济效益提供帮助。
研究不同的用户的消费习惯,往往可以发现多个不同用户之间可能具有类似的行为模式。例如,他们可能都在每周四晚上浏览促销信息、每周五晚上网购日用品、每周日晚上确认到货和进行网上支付;或者可能都在每周五晚上进行网上阅读、每周六晚上更新博客、每周日晚上安排工作计划。这种行为模式的主要特征可以归纳为:多个不同的用户在相近的时间点上从事类似的行为,或者说他们共享具有时间特征的类似行为模式。识别上述具有类似行为模式的用户群,可以为网站提供精准的个性化服务提供帮助,例如:安排面向特定人群的团购活动,在合适的时间点推出广受欢迎的服务内容,等。
然而,这种类似行为的访问模式识别一般涉及TB级的历史海量数据。虽然,计算机技术的飞速发展,特别是多核技术的引入可以使得传统计算机系统的计算能力得到一定程度的提高,但是,如果没有在应用级实施针对海量日志的分析过程的优化,巨大的运算量以及繁重的I/O操作可能依旧使得多核系统在功能和性能上都难以达到预期效果。
发明内容
本发明针对现有技术的不足,提供了一种多核环境下基于海量日志的类似行为模式用户识别方法。
本发明方法的具体步骤是:
步骤(1) 在WEB服务器端设置单独的日志数据库,用于存放记录用户访问信息的日志数据集,日志数据集中的每一条日志信息包括用户ID、访问时间、访问IP、请求页面、请求功能号;
步骤(2) 以可用内存为限,读入日志数据集中的部分日志信息至内置多核CPU的通用计算机内存;
步骤(3) 根据多核环境下设置的线程个数,采用水平等间距静态投影方法均分日志数据集,得到多个局部日志数据集,作为各线程的处理数据源;
步骤(4) 各线程分别搜索步骤(3)获得的局部日志数据集,获取局部类似行为模式,并进行归约;
步骤(5) 重复步骤(2)、(3)、(4),至日志数据集中的所有日志信息都已处理完毕;
步骤(6)并行归并各线程获得的局部类似行为模式集至全局类似行为模式集,获得具有类似行为模式的用户;
本发明所提供的多核环境下基于海量日志的具有类似行为模式的用户识别方法由一组功能模块组成,它们包括:日志集分批读取模块、日志集等分模块、局部类似模式集生成模块和局部类似模式集汇总模块。
日志集分批读取模块以可用内存为限,分批读入日志数据集中的部分日志信息,包括用户ID、访问时间、访问IP、请求页面、请求功能号。
日志集等分模块根据多核环境下设置的线程个数,采用水平等间距静态投影方法均分日志集分批读取模块读取的日志数据集,得到多个局部日志数据集。
局部类似模式集生成模块采用多线程并行的方式,将各线程待处理的局部日志数据集分别按日志的访问时间排序,获取局部类似行为模式和支持度,构建各个局部类似模式集。如局部类似行为模式集容量超过预定义的最大内存上限值,则以文件形式换出至硬盘。
局部类似模式集汇总模块采用多线程并行的方式,累加各局部类似模式集的类似行为模式的支持度,格式化输出具有高支持度的具有类似行为模式的用户信息。
本方明提出的方法采用数据并行和任务并行相结合的策略,在各线程生成局部类似行为模式后,再与其他线程协同,以最终获得所有的全局类似行为模式。该方法通过并行局部归约技术消除了局部类似行为模式的重复生成与计算,并可结合静态与动态任务分配机制解决处理器的负载不均衡问题。在分析海量访问日志过程中,与不经过多线程优化、直接采用多核处理器的传统方法相比,采用本方明所述方法可使类似访问模式的识别过程具有较高的运行效率和加速比。
附图说明
图1数据流图;
图2模式存储数据结构图;
图3归约流程图。
具体实施方式
本发明所提供的多核环境下基于海量日志的类似行为模式用户识别方法的具体实施方式主要分3步(如图1所示):
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110242122.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种废气净化方法
- 下一篇:多功能远红外线倒起仿跑步治疗机