[发明专利]一种面向广告点击率预测的特征选取方法有效
| 申请号: | 201910775155.5 | 申请日: | 2019-08-21 | 
| 公开(公告)号: | CN110706015B | 公开(公告)日: | 2023-06-13 | 
| 发明(设计)人: | 刘譞哲;马郓;吕广利;陈震鹏;陆璇 | 申请(专利权)人: | 北京大学(天津滨海)新一代信息技术研究院 | 
| 主分类号: | G06Q30/0242 | 分类号: | G06Q30/0242 | 
| 代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 刘广达 | 
| 地址: | 300452 天津市滨海新*** | 国省代码: | 天津;12 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 面向 广告 点击率 预测 特征 选取 方法 | ||
本发明公开了一种面向广告点击率预测的特征选取方法,包括:步骤(1)构造特征集;步骤(2)对特征集的所有特征进行评估,筛选并标记所有无益特征,并将对模型影响最大的无益特征从特征集中删除,再更新特征集;步骤(3)对无益特征进行评估,筛选并标记该次评估产生的新无益特征,将对模型影响最大的新无益特征删除,再次更新特征集;若未产生新无益特征,则停止操作,得到的特征集为有效特征集;若产生新无益特征,则迭代执行步骤(3),直至未产生新无益特征。本发明采用双向式特征选择方式对特征集进行选择筛选,降低了迭代次数,不需再对特征全集进行迭代,能得到较大的模型提升效果,特征选择工程时间复杂度低,工作效率高。
技术领域
本发明涉及互联网技术领域,具体涉及一种面向广告点击率预测的特征选取方法。
背景技术
随着移动智能设备的普及,移动智能设备成了人们与互联网接触的主要入口之一。移动端广告投放占比也越来越大,移动端广告的精准投放是提高广告收入的关键。其中竞价广告已经成为移动端广告主流之一。
广告投放数据分为三种类型:连续数据:主要是指数据取值为实数且可以取该类数据取值分布范围内任意值的数据。如广告在某一维度的点击率信息。离散数据:主要是指数据取值为可枚举的字符串且数量较少的数据。包括设备信息,地理位置信息,时间信息等。长尾数据:在广告投放数据中,长尾数据主要是指用户Id数据,为了不影响用户体验,一般开发者都会限制同一用户广告展示频次,因此这类数据常常具有长尾分布。
点击率预测系统是广告投放系统的核心部分。主要功能是根据当前环境与广告资源,预测用户点击广告这一行为发生的可能性。为了精准预测广告的点击率,充分利用大数据中的有效信息,需要进行复杂的特征设计。
广告投放数据来源复杂,除了广告展示请求数据,广告点击行为数据之外,为了更好地进行模型预测,以及更准确地描述广告数据的特点,会引入第三方数据,如应用商店的应用描述信息、第三方IP库信息等。
为了让基于逻辑回归算法的点击率预测模型充分利用大量数据中的有效信息,需要进行复杂的特征设计。然而现有的特征生成方法存在以下三个问题:
1.针对大量长尾数据,现有方法大多将其舍弃,无法有效利用其中的信息;
2.为了更好地表达特征间的非线性关系,现有方法通常对特征进行两两组合,导致候选特征数量过多,难以从其中快速选择有效的特征。针对特征两两组合带来的候选集过于庞大的问题,通常采取的方式是通过特征选择工程筛选出合适的组合特征,丢弃对模型不友好的特征,这样得到的特征集才是可实际使用的,但是传统的特征选择工程时间复杂度高,难以满足需求。因此需要设计高效的选择算法来解决这一问题。
发明内容
本发明的一个目的是提供一种面向广告点击率预测的特征选取方法的新的技术方案。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本发明实施例的一个方面,提供一种面向广告点击率预测的特征选取方法,包括:
步骤(1)利用广告点击数据生成的数据特征构造特征集;
步骤(2)对所述特征集的所有特征进行评估,筛选并标记所有无益特征,将对广告点击率预测模型影响最大的无益特征从所述特征集中删除,再更新所述特征集;
步骤(3)对所述更新后的特征集内的所有无益特征进行评估,筛选并标记该次评估产生的新无益特征,取消其他无益特征的标记,并将对所述广告点击率预测模型影响最大的所述新无益特征从所述更新后的特征集中删除,再次更新所述特征集;
若未产生新无益特征,则停止操作,得到的特征集为有效特征集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学(天津滨海)新一代信息技术研究院,未经北京大学(天津滨海)新一代信息技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910775155.5/2.html,转载请声明来源钻瓜专利网。





