[发明专利]一种app用户聚类方法及装置有效
申请号: | 201610854321.7 | 申请日: | 2016-09-27 |
公开(公告)号: | CN107870934B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 张路;潘宣辰 | 申请(专利权)人: | 武汉安天信息技术有限责任公司 |
主分类号: | G06F16/26 | 分类号: | G06F16/26 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430000 湖北省武汉市东湖新技术*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 app 用户 方法 装置 | ||
本发明公开了一种app用户聚类方法,按照预设的规则对数据集进行频繁项集的挖掘,然后根据挖掘的频繁项集构建用户关联图谱,最后进行社区发现,将得到的用户关联图谱划分为若干区域,以实现对app用户快速、精准的聚类,从而制定更加精准的营销策略,提高商品推荐、广告投放的效果。本发明无需进行数据集的数值化,能展现用户间的间接关联情况,实现方式简单、聚类准确度高。本发明还公开了一种app用户聚类装置。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种app用户聚类方法及装置。
背景技术
随着移动终端的普及,app(应用软件)的数量也在迅猛增长,目前市场上流行着数以亿计的app,很多使用相同或相似app的用户往往拥有相同的生活习惯或者消费习惯,从某种程度上可以认为他们是相似的用户群体。另外,获得用户终端上所安装的所有app列表也并非难事,部分应用市场以及杀毒软件等均可收集到用户app列表。有鉴于此,很多企业都希望对app用户进行聚类,从而制定更加精准的营销策略,提高商品推荐、广告投放的效果。
目前,用户聚类的方法有很多,主要取决于数据的维度,例如中国发明专利申请CN201410380588中示出了一种基于用户行为的聚类方法。这种方法的前提是具有数值型的用户行为特征,由于用户app列表难以数值化,并且一旦数据量达到上千万甚至上亿时,这种方法的计算量是不可估量的,因此基于数值的聚类方法并不适用。
发明内容
本发明的目的在于提供一种app用户聚类方法和装置,能实现对app用户快速、精准的聚类,从而制定更加精准的营销策略,提高商品推荐、广告投放的效果。
为了实现上述目的,本发明公开了一种app用户聚类方法,包括以下步骤:
获取多个用户的app列表,生成数据集,其中,所述数据集包括若干app名称以及安装有相应app的用户ID;
按照预设的规则对所述数据集进行频繁项集的挖掘;
根据挖掘的频繁项集构建用户关联图谱;
进行社区发现,将得到的用户关联图谱划分为若干区域。
进一步的,所述用户关联图谱包括节点和边,每一个用户用一节点表示,构成频繁项集的用户之间通过边连接。
进一步的,对所述数据集进行频繁项集的挖掘时,安装同一app的不同用户构成一子项集,其中,定义频繁项集的方法如下:
其中I表示数据集中的所有用户,X,Y分别为其中的两个不同用户,通过支持度Support(X,Y)来定义二者频繁出现的程度,支持度越大,说明{X,Y}共同出现得越频繁,反之越不频繁;P(X,Y)表示数据集中{X,Y}共同出现的概率,num(X,Y)表示{X,Y}共同出现的次数,num(I)表示用户总数;
进一步的,进行频繁项集的挖掘的方法包括Apriori算法或FP-tree算法。
进一步的,进行社区发现的方法包括Modularity算法。
为了实现上述目的,本发明公开了一种app用户聚类装置,所述聚类装置包括数据采集模块、数据挖掘模块、关联图谱生成模块、社区发现模块,其中:
所述数据采集模块用于获取多个用户的app列表,生成数据集,其中,所述数据集包括若干app名称以及安装有相应app的用户ID;
所述数据挖掘模块用于按照预设的规则对所述数据集进行频繁项集的挖掘;
所述关联图谱生成模块用于根据挖掘的频繁项集构建用户关联图谱;
所述社区发现模块用于进行社区发现,将得到的用户关联图谱划分为若干区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉安天信息技术有限责任公司,未经武汉安天信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610854321.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:统计安卓应用页面浏览行为的方法、装置及系统
- 下一篇:一种搜索方法及装置