[发明专利]一种基于特征组合与表示学习的点击转化率预测方法有效
| 申请号: | 202011207345.6 | 申请日: | 2020-11-03 |
| 公开(公告)号: | CN112270570B | 公开(公告)日: | 2022-03-11 |
| 发明(设计)人: | 曾杨;肖云鹏;李暾;刘红;桑春艳;周由胜;刘宴兵 | 申请(专利权)人: | 重庆邮电大学 |
| 主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q30/06;G06Q10/04;G06N3/08;G06F40/289;G06F40/216;G06F16/2458 |
| 代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
| 地址: | 400065 重*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 特征 组合 表示 学习 点击 转化 预测 方法 | ||
1.一种基于特征组合与表示学习的点击转化率预测方法,其特征在于,具体包括以下步骤:
S1、获取书城电商平台销售数据和基础数据,包括用户数据和书籍数据;
S2、通过表示学习与特征组合的方法获取用户数据和书籍数据中的隐藏的属性特征;具体包括以下步骤:
S21、构建图书-用户-活动特征矩阵Triad=[boi,bui,ai];
S22、根据用户行为计算用户对图书的关注度,表示为Attentionub=tstay(boi)*Num(click(boi))*fav;
S23、根据营销活动内用户的参与行为构建营销活动影响因子,表示为
S24、根据书籍数据构建图书长文本内容集合,表示为TL={(bi,co,ti)|bi∈(Pb∪Lb)};
其中,boi为用户浏览的记录,bui表示参与活动的所有用户,ai表示一次营销活动;tstay(bo)表示用户在该图书间停留时间,Num(click(bo))表示用户对该图书的点击次数,fav表示用户对该图书的收藏标志,且当用户收藏该图书时,标志值为1,否则值为0.1;ci为营销活动序号,Num(history(ai))表示活动时间内参与活动的人数,T表示活动持续时间,Discount表示活动具体内容;boi表示图书节点;co表示图书简介内容;ti表示图书标题内容;Pb为浏览且购买图书,Lb为浏览未购买图书;
S3、通过与特征组合与表示学习的联合训练建立预测模型,即包括以下步骤:
S30、构建用户-图书-营销活动三部图网络,该三部图表示为:GBBA={Bu∪Bk∪A,MBB∪MBA},其中Bu,Bk,A分别表示购书用户,图书,营销活动;MBB为用户、图书之间的邻接矩阵,aij为矩阵MBB中的元素;如果用户Bui购买了图书Bki,aij=1则,否则,aij=0;MBA为图书、活动之间的邻接矩阵,bjk为矩阵MBA中的元素,如果活动Ai包含图书Boi,则bjk=1,否则bjk=0;
S31、用户-图书-营销活动特征组合进行特征组合以及特征分解后的再组合,获取图书的文本tag特征;即包括以下步骤:
S311、针对图书的标题文本以及简介文本TL进行jieba分词、词性标注和过滤停用词,得到标题的候选关键词Ttitle;
S312、针对图书的简介文本,构建词图G=(V,E),计算每个分词的权重并进行排序,选择权重最大K个词作为候选关键词Tcontext,V表示词语节点,E表示词语间的边;
S313、以Tcand=Ttitle+Tcontext作为一本书籍的候选词组;
S314、将所有用户书评进行jieba分词得到书评词组词典,将每一个候选关键词在词典内进行词频计算,排序筛选出词频最高的m个词;
S315、计算候选关键词在书评文本中的出现词频进行排序获得图书的文本tag特征,该tag特征即为完整特征组合空间;图书的文本tag特征表示为:
tags=Maxcount=m(freq(Tcand)br);
其中,freq(Tcond)br为词频从高到低的词组列表;
S32、基于文本tag特征,将三部图用户-图书-营销活动TriadBBA的嵌入向量矩阵W0扩充为嵌入向量矩阵W′0,获取构建完整特征组合空间;
S33、基于BBA2vec算法将用户与图书通过时间与购买记录构造的特征空间进行向量表示;具体包括:
S331、将三部图用户-图书-营销活动转化为图GBBA=(BΔt,E),计算边权重w(ai,boi,bui),表示为
S332、利用边权重与两个图书节点之间的搜索偏差的乘积作为图书的活跃度转移概率,即图书的转移概率表示为:
其中,o(bx,bi)为游走搜索偏差,即图书的活跃度;p为返回概率;q为出入参数;pop(boi)为图书节点boi热度值;pop(box)为图书节点box热度值;decay(boi-1,boi)为图书热度动态衰减函数,表示为和分别为购书用户对上一个图书节点的浏览时间和对当前图书节点的浏览时间,w为边权重w(ai,boi,bui)的简写;表示图书节点boi到图书节点box的距离;
S332、利用图书的转移概率决定搜索行走路径,并利用该路径作为用户-图书-活动的特征表示;
S34、将S32构建的完整特征组合空间特征表示作为DNN神经网络的输入,并改进DNN神经网络的损失函数,同时与BBA2vec算法的损失函数联合训练得到预测模型;预测模型的损失函数表示为:
L=αLFM+βLvec+(1-α-β)LDNN;
其中,α、β为平衡系数;LFM为特征组合的损失函数;Lvec为表示学习的损失函数;LDNN为改进后的DNN神经网络的损失函数;
将获得的隐藏的属性特征作为输入,通过该模型得到点击转化率预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011207345.6/1.html,转载请声明来源钻瓜专利网。





