[发明专利]一种基于集成学习的用户基础属性预测方法有效
申请号: | 202010070270.5 | 申请日: | 2020-01-21 |
公开(公告)号: | CN111291798B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 曹倩;王曼;刘立红;左敏;李海生 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F11/34 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 邓治平 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 集成 学习 用户 基础 属性 预测 方法 | ||
1.一种基于集成学习的用户基础属性预测方法,其特征在于:基于手机用户的App安装列表和App使用数据,对用户的性别和年龄进行预测,步骤如下:
步骤1,收集用户App安装及使用行为记录的数据,包括用户ID、安装的App列表、列表中各App的使用时间;对采集的用户App安装及使用行为记录的数据进行预处理,过滤异常、缺失数据;得到预处理后的原始数据;
步骤2,将预处理后的原始数据划分为12个二分类数据集,其中包括1个性别二分类和11个年龄二分类,不同二分类数据集之间仅数据标签不同;
步骤3,对二分类数据集提取特征,包括基础统计特征:用户安装的App数量;用户安装的App类别数;用户安装各类别App的数量;用户24小时各时段使用时长统计;用户每天App使用时长最大、最小、平均值;用户平均每天打开App的次数;用户使用App最早及最晚时间;用户App使用偏好特征、Applist2vec特征;
步骤4,将轻量级梯度提升机LightGBM和因子分解机FM模型融合构造二分类器,利用LightGBM提取高维组合特征,输入FM分类器中进行训练,得到各二分类器的预测概率;
步骤5,将预测概率与步骤3中的特征进行拼接,得到新的训练特征为{基础属性特征,Applist2vec特征,合并后的用户App使用偏好特征,概率1,概率2,……,概率12};将性别和年龄进行组合,问题转化为一个多分类问题,新的训练特征输入到多分类器进行训练,输出预测结果;
所述步骤3:对二分类数据集提取特征包括:
根据用户的App安装、使用数据和App类别信息,从每个二分类数据集中提取特征,包括基础属性特征、用户App使用偏好特征、Applist2vec特征;每个二分类数据集特征的不同之处为用户App使用偏好特征;
(1)基础属性特征包括:用户安装的App数量、用户安装的App类别数、用户安装各类别App的数量、用户24小时各时段使用时长统计、用户每天App使用时长最大、最小、平均值、用户平均每天打开App的次数、用户使用App最早及最晚时间;
(2)用户App使用偏好特征包括:首先基于信息增益提取每个属性下的重要App,然后对重要App的使用集合利用TF-IDF提取特征;
(3)Applist2vec特征,把每个App视为一个词,每个用户一段时间内使用App的序列视为一个文档集,利用word2vec中Embedding层提取特征,得到降维后的App向量矩阵;采用CBOW网络结构构建词向量模型,从用户App使用行为数据提取20维连续特征;
所述用户App使用偏好特征首先基于信息增益提取每个属性下的重要App,然后对重要App的使用集合利用TF-IDF提取特征;
根据用户App安装数据,对每一个用户属性,计算各App的信息增益值并进行排序,一个手机AppA对一个特定用户属性Φ的信息增益表示为:
IG(Φ,A)=H(Φ)-H(Φ|A)
其中,H(Φ)表示这个特定用户属性的信息熵,H(Φ|A)是指在App A固定条件下的信息熵;基于用户安装的App列表及属性信息,计算得到属性Φ下信息增益排名前100的App及对应的信息增益集合IG(Φ),即IG(Φ)=(IG1,…IG100);
根据用户App使用数据,将用户一段时间内使用的App集合看作一篇文档,将每个App视为文档中的文字,利用TF-IDF计算重要App的TF-IDF值,公式为:
其中,ni,j是Appi在用户App使用集合dj中的数量,∑knk,j是用户App使用集合dj中总的App数量,|D|是用户App使用集合的总数即用户总数,|{j:wi∈dj}|是包含Appi的App使用集合数;
100个重要App的TF-IDF为TFIDF=(TFIDF1,…TFIDF100),与信息增益值相乘,得到100维的TF-IDF加权信息增益即用户App使用偏好特征,记为TFIDF_IG,即:
TFIDF_IG=TFIDFi·IGi(i=1,2,…,100)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010070270.5/1.html,转载请声明来源钻瓜专利网。