[发明专利]一种基于大数据的短视频活跃用户预测方法有效

专利信息
申请号: 201910027207.0 申请日: 2019-01-11
公开(公告)号: CN109784997B 公开(公告)日: 2022-07-01
发明(设计)人: 王进;闵子剑;许景益;孙开伟;刘彬 申请(专利权)人: 重庆邮电大学
主分类号: G06Q30/02 分类号: G06Q30/02;G06N3/04
代理公司: 重庆市恒信知识产权代理有限公司 50102 代理人: 刘小红;陈栋梁
地址: 400065 重*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 视频 活跃 用户 预测 方法
【权利要求书】:

1.一种基于大数据的短视频活跃用户预测方法,其特征在于,包括以下步骤:

101、对用户的历史行为数据进行包括“僵尸”用户处理步骤、用户注册设备处理步骤在内的预处理操作;

用户注册设备处理步骤具体包括:对用户注册设备采用平均值编码方法进行编码,在贝叶斯的架构下,利用所要预测的应变量,有监督地确定最适合这个定性特征的编码方式;所述平均值编码方法具体包括:将用户注册设备处理中的每一个设备类别k,都表示为它所对应的目标y值的先验概率与后验概率的一个凸组合,引入先验概率的权重λ来计算编码所用概率权重λ与设备在数据集出现的次数有关;

其中n为一个设备类型出现的次数,k为设备类型,prior为用户使用该短视频APP的概率即先验概率、posterior为用户注册账号所使用的设备类型为k时,使用该短视频APP的概率即后验概率,device_type为用户注册时所使用的设备类型、y表示用户未来7天是否使用该短视频APP,1表示使用,0表示未使用;

102、根据注册时间将用户划分成训练集候选用户和测试集候选用户;

103、将训练集候选用户和测试集候选用户的历史行为转化为时序序列,再将时序序列根据时间划窗划分为训练集和测试集;

104、对作为训练集的时序序列进行打标;

105、通过时序序列建立many-to-many多输入对多输出结构的LSTM长短期记忆网络模型;many-to-many多输入对多输出结构即每个输入都对应输出之后7天是否活跃;

106、根据用户历史行为时间序列,采用LSTM长短期记忆网络模型对当月注册用户在未来一周是否会使用相应短视频APP进行预测;

所述步骤105通过时序序列建立many-to-many结构的LSTM模型,具体步骤为:

1051.输入序列:对各类行为序列直接输入;

1052.Intercept截距拼接:在输出层直接做一个intercept拼接,将日期、device_type、register_type进行one-hot后输入;

1053.Batch数据块选择:随机采样一定样本作为一个batch数据块;

1054.循环三角退火快照:通过循环调整网络学习率使网络依次收敛到不同的局部最优解处,将网络学习率η设置为随模型迭代轮数t改变的函数,即:

其中,η0为初始学习率,t为模型迭代轮数,T为模型中的批处理训练次数,M为学习率“循环退火”次数,其对应了模型将收敛到的局部最优解个数,公式(2)利用余弦函数的循环性来循环更新网络学习率,将学习率从0.1随t的增长逐渐减缓到0,之后将学习率重新放大从而跳出该局部最优解,自此开始下一循环的训练,此循环结束后可收敛到新的局部最优解处,如此循环往复,直到10个循环结束,因为公式(2)中利用正弦函数和余弦函数循环更新网络参数,所以这一过程被称为“循环三角退火”过程;

1055.权值临界集成:采用权值临界集成策略,权值临界集成的工作原理分为两个步骤:

(1)首先,给最终集成模型的权值赋值7个模型“快照”的权值的平均值:

其中ωi为第i个模型“快照”的权值,即在权重空间而不是模型空间对这些点进行平均;

(2)在每个学习率周期的末尾,使用当前模型“快照”的权值将用来更新最终集成模型的权值,更新公式如下式所示:

其中nmodels为模型“快照”的序数,ωi为第i个模型“快照”的权值;

所述步骤106根据当月用户历史行为时间序列,对用户在未来一周是否会使用相应短视频APP进行预测,具体步骤为:

根据LSTM模型,构建的框架实现基于循环余弦退火快照的集成框架,其核心思想为:(1)学习率采用循环三角学习率退火使得LSTM模型产生多个模型“快照”;(2)通过不同阶段的模型所产生的模型“快照”采用权值临界集成策略进行集成,最终得到的用户活跃概率:

其中t为时间序列长度,x(t)为模型的第t次输入,h为隐层单元,而U,V,W,P为权值空间ωSWA中的权值,prob为最终得到的用户活跃概率,当prob大于0.56的时候,说明当前测试数据对应的用户很大可能是活跃用户,会在规定时间内使用该短视频APP。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910027207.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top