[发明专利]一种用户行为分析系统在审
| 申请号: | 202111602485.8 | 申请日: | 2021-12-24 |
| 公开(公告)号: | CN114238360A | 公开(公告)日: | 2022-03-25 |
| 发明(设计)人: | 郝明;邹武;魏国富 | 申请(专利权)人: | 上海观安信息技术股份有限公司 |
| 主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/2458;G06F16/28 |
| 代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 丁瑞瑞 |
| 地址: | 200333 上海市浦东新*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用户 行为 分析 系统 | ||
1.一种用户行为分析系统,其特征在于,基于ClickHouse分布式数据库中原生的多参聚合函数以及高阶函数对用户行为分析,包括用户行为会话模块、用户留存分析模块、用户行为匹配模块及用户漏斗分析模块;
所述用户行为会话模块,用于从原始访问日志表中提取出用户标识字段、行为标识字段、行为时间字段,生成会话id,会话的起始时间戳字段,会话的结束时间戳字段,用户行为链字段,并根据用户标识字段,会话id字段进行排序后输出,形成有序的用户行为会话数据集,保存为用户行为会话数据表;
所述用户留存分析模块,用于基于给定的日期参数,计算出首日与预设期限内的留存率,生成用户留存率日表;
所述用户行为匹配模块,用于基于给定的有顺序要求的行为模式参数,或无顺序要求的行为模式参数,筛选出符合对应模式的用户数据集,生成用户行为匹配数据表;
所述用户漏斗分析模块,用于基于给定的滑动窗口,按顺序匹配事件链,计算出窗口事件内转化的步数以及每个阶段的转化数量,生成用户漏斗转化分析表。
2.根据权利要求1所述的一种用户行为分析系统,其特征在于,所述用户行为会话模块从原始访问日志表中提取出用户标识字段、行为标识字段、行为时间字段,生成会话id,包括:
从原始访问日志表中提取出用户标识字段、行为标识字段、行为时间字段,其中行为时间字段转换为时间戳格式,提取的数据集按照行为时间字段的数值由小到大排序;
数据集按照用户标识字段进行GROUP BY聚合,并使用groupArray函数将对应的行为标识字段和行为时间字段分别汇聚为行为标识数组字段、行为时间戳数组字段;
使用arrayDifference函数计算行为时间戳数组字段内相邻元素之间的差值,生成该用户行为间隔数组字段;
使用arrayMap函数将行为间隔数组字段中行为间隔与预设的会话时间阈值做比较,若行为间隔小于或等于预设的会话时间阈值,则表示是用户同一会话的行为记录,若大于会话时间阈值,则视为是两个会话,返回的结果数组为新会话标识数组字段,其中的元素值为1时表示为新会话,值为0时表示为旧会话,新会话标识数组字段的第一个元素置为1;
使用ARRAY JOIN对行为标识数组字段、行为时间戳数组字段和新会话标识数组字段进行行转列展开操作,每个用户的单行记录根据数组的元素个数展开为多行记录,展开后生成用户标识字段、行为标识字段、行为时间戳字段和新会话标识字段;
对新会话标识字段使用arrayEnumerate函数返回数组下标,使用arrayJoin函数对arrayEnumerate函数处理的结果行转列,生成会话索引session_index,然后对每行数据使用arraySlice(is_new_session_array,1,session_index)函数切割,其中,arraySlice的三个输入参数分别为新会话标识字段、切割的偏移量、切割长度,再使用arraySum函数对上述切割出的数组的中的元素进行求和,其值视为会话id。
3.根据权利要求2所述的一种用户行为分析系统,其特征在于,所述用户行为会话模块生成会话的起始时间戳字段,会话的结束时间戳字段,用户行为链字段,包括:
将行为标识字段和行为信息维度表的行为名称字段进行左连接操作,将行为标识字段转换为行为名称字段;
按照用户标识字段和行为时间戳字段对数据集进行排序操作,排好序的数据集再根据用户标识字段和会话id字段进行GROUP BY聚合操作;
聚合后,将每个会话中最小行为时间戳作为会话的起始时间戳字段,最大行为时间戳作为会话的结束时间戳字段,将起始时间戳字段与结束时间戳字段内的行为名称字段通过groupArray函数处理为行为名称数组,再通过arrayStringConcat函数进行数组内元素连接,生成用户行为链字段。
4.根据权利要求1所述的一种用户行为分析系统,其特征在于,所述原始访问日志表的构建过程为:分析对象所在的系统的日志数据存储在ClickHouse数据库中,然后生成原始访问日志表,原始访问日志表至少包含用户标识字段、行为标识字段、行为时间字段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海观安信息技术股份有限公司,未经上海观安信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111602485.8/1.html,转载请声明来源钻瓜专利网。





