[发明专利]一种基于集成学习的用户基础属性预测方法有效
申请号: | 202010070270.5 | 申请日: | 2020-01-21 |
公开(公告)号: | CN111291798B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 曹倩;王曼;刘立红;左敏;李海生 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F11/34 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 邓治平 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 集成 学习 用户 基础 属性 预测 方法 | ||
本发明涉及一种基于集成学习的用户基础属性预测方法,该方法通过分析移动用户的App安装及使用数据,预测用户的年龄和性别。首先将多分类问题转化为多个二分类问题,利用LightGBM和FM融合模型作为二分类器进行二分类预测;然后把二分类的预测结果与原始特征合并,构建多分类模型。实验结果表明,本发明提出的融合方法能够提高用户属性预测的效果。
技术领域
本发明涉及集成学习技术领域,具体设计一种基于智能手机App安装及使用数据的用户基础属性预测方法。
背景技术
随着移动互联网的发展,智能手机成为人们拥有最多的移动设备。目前应用商店中可用的App数量已经超过四百万个,人们安装和使用的App可能与他们的性别、年龄等基本属性密切相关。这些信息能够反映用户的基本属性、兴趣偏好、生活习惯等个人信息。用户属性的深入挖掘不但能帮助应用商店了解用户的行为特征,有针对的推荐产品;还能帮助企业更精准的投放互联网广告,节省广告费用。
目前已有研究主要是基于用户安装的App进行基础属性预测,对用户App使用数据的特征挖掘较少且较为粗糙,对用户使用App的频率、时长,以及App使用序列缺乏深入的分析;另一方面,现有研究主要采用SVM、贝叶斯等传统机器学习方法,集成学习作为机器学习的重要部分也逐渐被应用于用户属性预测领域。但是,现有基于集成学习的算法也有一些不足之处,如在问题划分过程中会有一定的信息丢失,最终的模型融合是一个耗时、复杂的调整参数过程等。
发明内容
为了克服现有方法对用户App使用数据的挖掘较少、基础属性预测准确率低的问题,本发明基于App安装及使用数据对用户基础属性进行挖掘和预测。本发明的技术方案为:一种基于集成学习的用户基础属性预测方法,包括如下步骤:基于手机用户的App安装列表和App使用数据,对用户的性别和年龄进行预测,步骤如下:
步骤1,收集用户App安装及使用行为记录的数据,包括用户ID、安装的App列表、列表中各App的使用时间;对采集的用户App安装及使用行为记录的数据进行预处理,过滤异常、缺失数据;得到预处理后的原始数据;
步骤2,将预处理后的原始数据划分为12个二分类数据集,其中包括1个性别二分类和11个年龄二分类,不同二分类数据集之间仅数据标签不同;
步骤3,对二分类数据集提取特征,包括基础统计特征:用户安装的App数量;用户安装的App类别数;用户安装各类别App的数量;用户24小时各时段使用时长统计;用户每天App使用时长最大、最小、平均值;用户平均每天打开App的次数;用户使用App最早及最晚时间;用户App使用偏好特征、Applist2vec特征;
步骤4,将轻量级梯度提升机LightGBM和因子分解机FM模型融合构造二分类器,利用LightGBM提取高维组合特征,输入FM分类器中进行训练,得到各二分类器的预测概率;
步骤5,将预测概率与步骤3中的特征进行拼接,得到新的训练特征为{基础属性特征,Applist2vec特征,合并后的用户App使用偏好特征,概率1,概率2,……,概率12};将性别和年龄进行组合,问题转化为一个多分类问题,新的训练特征输入到多分类器进行训练,输出预测结果。
进一步的,所述步骤1采集的用户App安装及使用行为记录的数据具体包括:
收集多个用户的App使用行为记录,所述App使用行为记录包括了用户ID、用户性别及年龄、用户安装的App列表以及列表中各App的打开、关闭时间。
进一步的,所述步骤1中对采集的用户App安装及使用行为记录的数据进行预处理,过滤异常、缺失数据具体包括:
(1)用户App使用时间:从解析出用户使用App的时间戳,用户打开关闭App的时间如果包括1970、1975以及2025年,则剔除这种异常年份的数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010070270.5/2.html,转载请声明来源钻瓜专利网。