[发明专利]用户行为的统计数据矩阵的生成方法和装置在审
申请号: | 201910446901.6 | 申请日: | 2019-05-27 |
公开(公告)号: | CN112000704A | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 李慧萍 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/22 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;张效荣 |
地址: | 100086 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 行为 统计数据 矩阵 生成 方法 装置 | ||
本发明公开了一种用户行为的统计数据矩阵的生成方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取预设时间间隔内多个用户针对多种物品的多条单次行为数据;依据单次行为数据确定每一用户针对每种物品的目标维度数据的非零统计结果以及非零统计结果与物品标识形成的键值对数据;将同一用户的键值对数据单独存储在一个集合,并将物品标识存储在第一子集,将非零统计结果存储在第二子集;将每一集合中的物品标识转换为矩阵的列序号或者行序号,以使每一集合成为用于组成统计数据矩阵的行向量或者列向量。该实施方式能够在不使用结构化查询语言的前提下快速获取用户行为数据的统计结果进而生成不浪费存储空间的统计数据矩阵。
技术领域
本发明涉及计算机技术领域,尤其涉及一种用户行为的统计数据矩阵的生成方法和装置。
背景技术
在计算机技术领域,经常面临需要分析用户行为的场景,上述用户行为可以是用户针对物品的浏览、搜索、购买等行为。为了更加直观地展示不同用户对于不同物品的行为区分度,可建立用户行为的统计数据矩阵,该矩阵的每一行数据可对应一个用户,每一列数据可对应一种物品,每一元素表示一个用户针对一种物品的行为数据在预设时间间隔内的统计结果。
在现有的以Hive(一种应用在分布式系统的数据仓库工具)作为查询引擎的分布式系统中,一般通过Hive SQL(SQL是Structured Query Language的缩写,表示结构化查询语言)获取上述统计结果,Hive SQL语句的数量与物品种类数量相当。在实际场景中,物品种类的数量往往较为庞大,这使得Hive SQL语句的编写、存储和执行需要耗费大量资源,严重影响上述统计数据矩阵的生成效率。同时,用户的数量往往同样较为庞大,加之上述统计数据矩阵一般为稀疏矩阵,以现有方式(即显示矩阵每一元素的方式)存储的统计数据矩阵读取缓慢、空间浪费较大。
发明内容
有鉴于此,本发明实施例提供一种用户行为的统计数据矩阵的生成方法和装置,可在不使用结构化查询语言的前提下快速获取用户行为数据的统计结果,进而通过数据聚合与格式转换生成以不造成空间浪费的方式存储的统计数据矩阵。
为实现上述目的,根据本发明的一个方面,提供了一种用户行为的统计数据矩阵的生成方法。
本发明实施例的用户行为的统计数据矩阵的生成方法包括:获取预设时间间隔内多个用户针对多种物品的多条单次行为数据;其中,所述单次行为数据中包括预设的目标维度的数据;依据所述单次行为数据确定每一用户针对每种物品的目标维度数据的统计结果,从中选取非零统计结果;其中,每一非零统计结果与其对应的物品标识形成键值对数据;将同一用户的所述键值对数据单独存储在一个集合;在该集合中,将键值对数据中的物品标识存储在第一子集,将键值对数据中的非零统计结果存储在第二子集;其中,在第一子集与第二子集中,处于相同存储位置的数据相互对应;以及,将每一集合中的物品标识转换为矩阵的列序号,以使每一集合成为用于组成所述统计数据矩阵的行向量;或者,将每一集合中的物品标识转换为矩阵的行序号,以使每一集合成为用于组成所述统计数据矩阵的列向量。
可选地,所述统计数据矩阵中的任一元素表征:在所述时间间隔内,所述多个用户中的一个用户针对所述多种物品中的一种物品所实施的行为在目标维度的统计结果;所述统计数据矩阵中与该元素处于不同行且不同列的任一元素表征:在所述时间间隔内,所述多个用户中的另一用户针对所述多种物品中的另一种物品所实施的行为在目标维度的统计结果。
可选地,所述方法进一步包括:在将同一用户的所述键值对数据单独存储在一个集合之后,按照预设顺序将每一集合中的键值对数据排序;其中,所述排序使键值对数据中物品标识对应的矩阵列序号或者行序号以升序排列;所述将键值对数据中的物品标识存储在第一子集,将键值对数据中的非零统计结果存储在第二子集,具体包括:按照所述排序后形成的键值对数据排列顺序,将键值对数据中的物品标识存储在第一子集,将键值对数据中的非零统计结果存储在第二子集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910446901.6/2.html,转载请声明来源钻瓜专利网。