[发明专利]一种基于时间衰减采样的广告点击预估方法有效
申请号: | 201710041277.2 | 申请日: | 2017-01-17 |
公开(公告)号: | CN106886915B | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 董守斌;黄淦;胡金龙;袁华 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06K9/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 罗观祥 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时间 衰减 采样 广告 点击 预估 方法 | ||
本发明公开了一种基于时间衰减采样的广告点击预估方法,主体思想是从离测试集日期近的数据中多采样,离测试集日期远的数据中少采样,采样量依据时间的远近呈现一个渐变的趋势,通过将采样数据进行时间维度上的划分,构建出适合广告点击预估的训练数据,再通过多模型融合的方法,为广告点击预估构建出更加精准和有效的模型。本发明更能捕捉到时间更近的数据的特征,达到更好的预估效果,此类基于时间衰减的采样方法可以延伸到其他跟时间相关,基于时间序列的不平衡数据中,具有广泛的应用前景。
技术领域
本发明涉及广告点击预估领域,尤其是指一种基于时间衰减采样的广告点击预估方法。
背景技术
互联网在线广告将广告投放和实时的用户信息、媒体信息、上下文情景信息相结合,使得互联网在线广告投放具有技术导向和计算导向,广告可以进行精确的受众定向,每一次广告决策对每个用户的效果都是可衡量和经过精确计算的。对于每一个用户的广告请求,在服务器端都进行了用户与广告库中的广告的匹配,将最适合的广告投放给该用户,以获得更高的潜在广告点击率,得到更多有效点击,产生更多收益,这种模式通常需要先将用户进行数字化建模,用一个正确精准的模型去刻画互联网用户的方方面面,然后再用广告点击预估算法去求得模型计算所需要的权重。广告点击预估模型的构建需要基于过去积累的大量历史点击日志,利用用户历史点击日志进行大数据分析和数据挖掘方法,通过构建合适的广告点击预估的机器学习模型,进行广告点击率的预估,从而进行精准的广告投放。
在许多机器学习任务中,可能会出现目标类别分布不平衡现象,例如广告点击预估这种二分类问题中,训练集会存在某个类别数量远远大于另一个类别数量的情况,在这种类别不平衡问题中,如果直接进行建模,会造成结果偏向数量大的那一个类别,为了使得模型学习到数据的分布,需要解决这种类别不平衡问题。
对于不平衡的数据,传统的学习算法无法很好地发挥作用,针对这种问题,有从数据方面进行改善的解决方法。通过对原始数据进行采样,可以将原本不平衡的数据转化为较平衡的数据,随机采样是一种比较常见的改变数据类别分布的采样方法,随机采样又分为过采样和欠采样,过采样是通过多次有放回的方式,从少数类中抽取数据集,抽取出的数据要大于原来的少数类数据,然后再将抽取出的数据和原来的多数类数据结合,形成完整数据集;欠采样是指从多数类中随机抽取少量的样本,再和原本的少数类样本进行结合,形成完整数据集,根据从多数类中抽取少量样本是否放回,欠采样可以进而分为有放回欠采样和无放回欠采样。过采样和欠采样都是随机的采样方式,在组成完整数据集的过程中,每个样本被选择的机会均等,然而在某些情况下,数据集的时间新鲜度是一个影响训练出的模型的重要因素,应该要有某种采样方式,在随机采样的基础上,将时间因素考虑到采样方法中,从而训练出更加鲁棒的模型。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于时间衰减采样的广告点击预估方法,将时间因素融入采样方法中,此类基于时间衰减的采样方法可以延伸到其他跟时间相关,基于时间序列的不平衡数据中,具有广泛的应用前景。
为实现上述目的,本发明所提供的技术方案为:一种基于时间衰减采样的广告点击预估方法,包括以下步骤:
S1、数据清洗
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710041277.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种积分转化为数字资产的存储方法、系统及装置
- 下一篇:声誉管理系统及方法