[发明专利]一种点击率预估模型的构建方法、点击率预估方法和装置有效
| 申请号: | 201811428618.2 | 申请日: | 2018-11-27 | 
| 公开(公告)号: | CN109544241B | 公开(公告)日: | 2023-09-22 | 
| 发明(设计)人: | 陈晓爽;郑胤;马文晔;黄俊洲 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 | 
| 主分类号: | G06Q30/0202 | 分类号: | G06Q30/0202;G06Q30/0242;G06F18/22;G06F18/214 | 
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 | 
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 点击率 预估 模型 构建 方法 装置 | ||
本申请实施例公开了一种点击率预估模型的构建方法、点击率预估方法和装置,点击率预估模型设置了N个不同的候选维数,从所述N个不同的候选维数中确定一个候选维数作为目标特征对应的最大维数,将所述N个不同的候选维数中小于所述最大维数的i个候选维数确定为所述特征对应的投影维数;目标特征具有一个对应的最大维数和i个对应的投影维数,可以为目标特征分别训练i+1个特征向量。由此,最大维数对应的特征向量可以合理的体现目标特征在训练样本中的信息,不会出现对过拟合或者欠拟合的问题。而且,不会影响目标特征与最大维数小于自己的其他特征进行特征向量的内积计算,从而达到较高的预估精度。
技术领域
本申请涉及数据处理领域,特别是涉及一种点击率预估模型的构建方法、点击率预估方法和相关装置。
背景技术
点击率是客户端上某一内容(新闻、广告或产品)被用户点击的次数与被显示次数之比,也就是该内容被用户点击的概率。在在线应用中,对于用户对某个内容的点击率进行预测,从而决定是否向用户推荐该类信息,是提高用户体验的重要方式。对点击率进行预估的模型称为点击率预估模型,该类模型根据用户和内容的相关信息等,通过点击率预估模型可以预估出用户在某一背景下点击某个内容的概率。
分解机(Factorization Machine, FM)模型是一种常用的点击率预估模型。在FM模型中,将用户、内容等分别作为不同的特征,每个特征分配有对应的特征向量,在预估用户对某内容的点击率时,可以通过FM模型计算用户和内容各自对应的特征向量间的内积,以得到预估结果。
计算特征向量间内积的前提是计算所涉及的特征向量的维数相同。因此,在传统方式中,为了便于计算特征向量间的内积,在FM模型中,为不同的特征所分配的特征向量必须具有相同的维数。
然而,在真实的数据中,大量的特征都只有较少的非零样本,只有少量的特征由较多的非零样本。以内容具体是电影为例,少量的热门电影的观看次数(即样本数)很多,而大量的冷门电影的观看次数都会相对较少。非零样本较少的特征采用维数较少的特征向量即可体现该特征的内容,非零样本较多的特征需要采用维数较多的特征向量才可体现该特征的内容。
但是传统方式中的FM模型等点击率预估模型为了能够计算不同特征的特征向量间的内积,针对不同特征所分配的特征向量维数均相同,由此导致某些特征对应的特征向量过拟合,例如冷门电影的特征向量,某些特征向量欠拟合,例如热门电影的特征向量,从而影响点击率的预估精度。
发明内容
为了解决上述技术问题,本申请提供了一种点击率预估模型的构建方法、点击率预估方法和装置,构建的点击率预估模型不会出现对过拟合或者欠拟合的问题,且不会影响目标特征与最大维数小于自己的其他特征进行特征向量的内积计算,从而达到较高的预估精度。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供了一种点击率预估模型的构建方法,所述点击率预估模型设置了N个不同的候选维数,N为大于等于2的自然数;所述候选维数用于标识特征向量的维数,所述方法包括:
从所述N个不同的候选维数中确定一个候选维数作为目标特征对应的最大维数;
将所述N个不同的候选维数中小于所述最大维数的i个候选维数确定为所述目标特征对应的投影维数;i为小于N、大于等于1的自然数;
根据所述目标特征对应的训练样本,为所述目标特征分别训练i+1个不同维数的特征向量,所述i+1个不同维数的特征向量中,任意一个特征向量的维数为所述目标特征对应的所述最大维数和所述投影维数中的一个。
第二方面,本申请实施例提供了一种点击率预估方法,所述方法包括:
获取包括多个特征的待估计样本,所述多个特征至少包括第一特征和第二特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811428618.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电视策略冲突处理方法、系统及存储介质
 - 下一篇:一种平台广告精准推送方法
 





