[发明专利]一种基于集成学习的用户基础属性预测方法有效

专利信息
申请号: 202010070270.5 申请日: 2020-01-21
公开(公告)号: CN111291798B 公开(公告)日: 2021-04-20
发明(设计)人: 曹倩;王曼;刘立红;左敏;李海生 申请(专利权)人: 北京工商大学
主分类号: G06K9/62 分类号: G06K9/62;G06F11/34
代理公司: 北京科迪生专利代理有限责任公司 11251 代理人: 邓治平
地址: 100048*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 集成 学习 用户 基础 属性 预测 方法
【权利要求书】:

1.一种基于集成学习的用户基础属性预测方法,其特征在于:基于手机用户的App安装列表和App使用数据,对用户的性别和年龄进行预测,步骤如下:

步骤1,收集用户App安装及使用行为记录的数据,包括用户ID、安装的App列表、列表中各App的使用时间;对采集的用户App安装及使用行为记录的数据进行预处理,过滤异常、缺失数据;得到预处理后的原始数据;

步骤2,将预处理后的原始数据划分为12个二分类数据集,其中包括1个性别二分类和11个年龄二分类,不同二分类数据集之间仅数据标签不同;

步骤3,对二分类数据集提取特征,包括基础统计特征:用户安装的App数量;用户安装的App类别数;用户安装各类别App的数量;用户24小时各时段使用时长统计;用户每天App使用时长最大、最小、平均值;用户平均每天打开App的次数;用户使用App最早及最晚时间;用户App使用偏好特征、Applist2vec特征;

步骤4,将轻量级梯度提升机LightGBM和因子分解机FM模型融合构造二分类器,利用LightGBM提取高维组合特征,输入FM分类器中进行训练,得到各二分类器的预测概率;

步骤5,将预测概率与步骤3中的特征进行拼接,得到新的训练特征为{基础属性特征,Applist2vec特征,合并后的用户App使用偏好特征,概率1,概率2,……,概率12};将性别和年龄进行组合,问题转化为一个多分类问题,新的训练特征输入到多分类器进行训练,输出预测结果;

所述步骤3:对二分类数据集提取特征包括:

根据用户的App安装、使用数据和App类别信息,从每个二分类数据集中提取特征,包括基础属性特征、用户App使用偏好特征、Applist2vec特征;每个二分类数据集特征的不同之处为用户App使用偏好特征;

(1)基础属性特征包括:用户安装的App数量、用户安装的App类别数、用户安装各类别App的数量、用户24小时各时段使用时长统计、用户每天App使用时长最大、最小、平均值、用户平均每天打开App的次数、用户使用App最早及最晚时间;

(2)用户App使用偏好特征包括:首先基于信息增益提取每个属性下的重要App,然后对重要App的使用集合利用TF-IDF提取特征;

(3)Applist2vec特征,把每个App视为一个词,每个用户一段时间内使用App的序列视为一个文档集,利用word2vec中Embedding层提取特征,得到降维后的App向量矩阵;采用CBOW网络结构构建词向量模型,从用户App使用行为数据提取20维连续特征;

所述用户App使用偏好特征首先基于信息增益提取每个属性下的重要App,然后对重要App的使用集合利用TF-IDF提取特征;

根据用户App安装数据,对每一个用户属性,计算各App的信息增益值并进行排序,一个手机AppA对一个特定用户属性Φ的信息增益表示为:

IG(Φ,A)=H(Φ)-H(Φ|A)

其中,H(Φ)表示这个特定用户属性的信息熵,H(Φ|A)是指在App A固定条件下的信息熵;基于用户安装的App列表及属性信息,计算得到属性Φ下信息增益排名前100的App及对应的信息增益集合IG(Φ),即IG(Φ)=(IG1,…IG100);

根据用户App使用数据,将用户一段时间内使用的App集合看作一篇文档,将每个App视为文档中的文字,利用TF-IDF计算重要App的TF-IDF值,公式为:

其中,ni,j是Appi在用户App使用集合dj中的数量,∑knk,j是用户App使用集合dj中总的App数量,|D|是用户App使用集合的总数即用户总数,|{j:wi∈dj}|是包含Appi的App使用集合数;

100个重要App的TF-IDF为TFIDF=(TFIDF1,…TFIDF100),与信息增益值相乘,得到100维的TF-IDF加权信息增益即用户App使用偏好特征,记为TFIDF_IG,即:

TFIDF_IG=TFIDFi·IGi(i=1,2,…,100)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010070270.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top