[发明专利]一种挖掘用户周期模式的系统及其方法在审
申请号: | 201510714206.5 | 申请日: | 2015-10-28 |
公开(公告)号: | CN105224685A | 公开(公告)日: | 2016-01-06 |
发明(设计)人: | 蒋昌俊;闫春钢;陈闳中;丁志军;徐兵 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海光华专利事务所 31219 | 代理人: | 王华英 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 挖掘 用户 周期 模式 系统 及其 方法 | ||
技术领域
本发明涉及周期模式挖掘技术领域,特别是涉及一种挖掘用户周期模式的系统及其方法。
背景技术
在LBSN领域中,用户的行为模式已经得到广泛的研究且产生了诸多研究成果。例如通过对用户到达地点的统计分析,发现用户在一天中的不同时间段所去地点的类别大体相同。通过对用户行驶序列的频繁序列的挖掘能够发现用户到达某些地点先后顺序的规律。同样,周期性行为也属于用户行为模式的一种。周期性行为的研究方向主要分为两类:周期获取以及周期模式的挖掘。其中周期获取的主要任务为获取某一用户到达某一地点的周期,而周期模式的挖掘主要目的是发现用户到达某一地点的周期发生的模式,其具体任务为在给定周期下挖掘用户到达该地点的周期模式。
目前,周期模式算法主要基于频繁模式挖掘算法的思想。基于Aprior思想的周期模式挖掘算法已经被提出,其借鉴了频繁模式挖掘算法中频繁模式的子模式也是频繁模式等思想。基于Aprior算法思想的频繁周期模式挖掘算法的算法复杂度依赖于给定周期的大小,在获取频繁周期模式时需要多次扫描原始数据集。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种挖掘用户周期模式的系统及其方法,能够准确的获取时间序列中的周期模式,通过扫描原始数据集两次,能够减少大量的IO操作,不仅提高了执行效率,而且也减少了从原始数据获取周期模式的内存占用。
为实现上述目的及其他相关目的,本发明提供一种挖掘用户周期模式的系统,至少包括:用户行为记录模块,用以记录各个用户的行为的时间;用户行为时间序列生成模块,与所述用户行为记录模块相连接,用以批量处理各个用户的行为,形成用户行为的时间序列;用户行为的周期模式获取模块,与所述用户行为时间序列生成模块相连,用以将时间序列根据频繁模式生成周期模式。
优选地,所述用户行为时间序列生成模块以天为时间粒度生成所述用户行为的时间序列。
优选地,所述挖掘用户周期模式的系统还包括用户周期模式存储模块,其与所述用户行为的周期模式获取模块相连,用以接收所述用户行为的周期模式获取模块生成的周期模式。
优选地,所述用户周期模式存储模块将周期模式存储到所述用户周期模式存储模块的数据库中。
优选地,所述用户周期模式存储模块将用户ID、周期存储到所述用户周期模式存储模块的数据库中。
一种挖掘用户周期模式的方法,包括以下步骤:S1,用户行为记录模块记录各个用户的行为的时间;S2,用户行为时间序列生成模块批量处理各个用户的行为,以天为时间粒度生成用户行为的时间序列;S3,用户行为的周期模式获取模块将时间序列根据频繁模式生成时间序列周期模式。
优选地,挖掘用户周期模式的方法还包括以下步骤:
S4,用户周期模式存储模块接收所述用户行为的周期模式获取模块生成的周期模式,并将周期模式、用户ID、周期存储到所述用户周期模式存储模块的数据库中。
优选地,所述步骤S3的具体实现过程为:
S3-1,第一次读取时间序列,将时间序列以周期大小切割成子序列的形式,同时将子序列中的每个元素增至其在当前子序列中的位置,将时间序列转变成项集的形式,并统计每个项集在数据集中出现的次数;
S3-2,将各个项集中的项按照其在数据集中发生的次数从大到小排序;
S3-3,根据项发生次数,去除不满足最低发生次数的项;
S3-4,依次读项集创建FP-Tree并创建头表,从头表最后一项起作为条件模式基创建条件模式树,并构建新的头表,条件模式与头表中的项的组合是一个频繁模式作为输出;
S3-5,获取数据集所有的频繁模式,根据频繁模式生成时间序列周期模式。
优选地,所述步骤S3中以深度优先的规则递归的方式获取数据集所有的频繁模式。
优选地,所述步骤S3中仅扫描原始数据集两次。
本发明提供挖掘用户周期模式的系统及其方法,具有以下有益效果:
本发明提出一种基于项位置信息以及FP-Growth算法思想的周期模式挖掘方法,本发明能够准确的获取时间序列中的周期模式,通过扫描原始数据集两次能够减少大量的IO操作,结合项位置信息以及构建FP-Tree不仅为算法提高了执行效率,而且也减少了从原始数据获取周期模式的内存占用。本发明提出的算法的时间复杂度为o(nlogn),空间复杂度为n。与现有周期模式获取算法相比具有更高的执行效率。
附图说明
图1显示为实施例中提供的挖掘用户周期模式的系统的框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510714206.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用电设备管理方法和系统
- 下一篇:食品加工信息的处理方法