[发明专利]基于多级逻辑回归的点击率预测方法和系统有效
申请号: | 201410001103.X | 申请日: | 2014-01-02 |
公开(公告)号: | CN103761266A | 公开(公告)日: | 2014-04-30 |
发明(设计)人: | 崔晶晶;林佳婕;李春华;受春柏;刘立娜 | 申请(专利权)人: | 北京集奥聚合网络技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京和信华成知识产权代理事务所(普通合伙) 11390 | 代理人: | 胡剑辉 |
地址: | 100028 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多级 逻辑 回归 点击率 预测 方法 系统 | ||
技术领域
本发明涉及互联网大数据机器学习处理领域,尤其涉及一种基于多级逻辑回归的点击率预测的方法和系统。
背景技术
随着全球信息化程度的提高,互联网应用越来越普及,相对于传统媒体的广告,互联网广告所占比重越来越大。近年来随着网络游戏、电子商务的兴起以及重视长尾流量的网盟发展,广告商对网络广告产生的实际效果越来越受到关注。通过对广告链接的点击率进行统计计算,可以了解不同用户感兴趣的广告,从而向每个用户更精准的展示对应的广告,以提高广告的点击率,改善广告投放效果和页面的访问量。所谓点击率,又叫CTR(Click-through Rate),或者CR(Clicks Ratio),是一个比值,即链接点击数量/链接展示数量。对于广告链接来讲,其点击率通常反映了该广告的投送质量。对广告平台来讲,如果能够根据用户的网络浏览或搜索行为,以及页面的内容的等预测出备选广告的点击率,则能够衡量每次广告投放的质量,对点击率预测值较高的广告进行投放,从而提高广告的转化率(ROI)。
目前预测点击率的方法通常都要首先选取对广告点击率有影响的因素来建立原始数据模型。影响广告的点击率的因素有很多种,例如广告、媒体、受众。每个因素本身又可细分多个方面。每个方面都可以看所一个维度数据,每个维度的样本数据都是该维度在一段时间内的实际点击率,因此多维度的样本数据是海量的。这就导致在预测点击率时,要面对计算量太大的问题。目前为了解决这一问题,在点击率预测时一般都会采用减少维度或者减少样本数量的方法进行降维处理,从而减少计算量。但由于减少了样本维度或者样本数量,从而影响了预测结果的准确性。
发明内容
本发明提供了一种基于多级逻辑回归的点击率的预测方法和系统,通过多级逻辑回归,在维度不变以及样本数量不变的前提下,减少运算量,以解决目前点击率预测中数据量大、预测不准确的问题。
根据本发明的一个方面,提供了一种基于多级逻辑回归的点击率预测方法,该方法包括:
特征抽取步骤,通过对已获得的点击率数据进行分析,分析对点击率有影响的因素,从中选取特征向量,构建特征模型;
模型训练步骤,使用多级逻辑回归模型,对特征模型进行多级逻辑回归机器学习,得到预测模型;
点击率预测步骤:使用预测模型对待预测点击率数据进行预测。
根据本发明的另一方面,提供了一种基于多级逻辑回归的点击率预测系统,该系统包括:
特征抽取装置,用于通过对已获得的点击率数据进行分析,分析对点击率有影响的因素,从中选取特征向量,构建特征模型;
模型训练装置,用于使用多级逻辑回归模型,对特征模型进行多级逻辑回归机器学习,得到预测模型;
点击率预测装置:用于使用预测模型对待预测点击率数据进行预测。
与现有技术相比,本发明的方法提供了多级逻辑回归的方法,提高了点击率预测的准确度和效率。具体应用在广告领域,可以使广告得到更精准的投放。本发明用的点击率预测方法并不是适用于广告领域,还可应用于其他大数据检索预测领域。
附图说明
图1为本发明实施例进行多级逻辑回归点击率预测的方法。
具体实施方式
以下结合附图及实施例来详细说明本发明的实施方式,借此对本发明解决的技术问题、采用的技术手段,并达到的技术效果能充分说明。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例的各特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
实施例1
如图1所示,本发明实施例的基于多级逻辑回归的点击率预测方法主要包括如下步骤:
特征抽取步骤,通过对已获得的点击率数据进行分析,分析对点击率有影响的因素,从中选取特征向量,构建特征模型;
模型训练步骤,使用多级逻辑回归模型,对特征模型进行多级逻辑回归机器学习,得到预测模型;以及
点击率预测步骤:使用预测模型对待预测点击率数据进行预测。
其中,影响点击率的因素有多种,最主要的包括:广告、媒体、受众。本发明优选使用如下模型构建点击率特征模型:
μ(a,u,c)=p(click|a,u,c)
其中,a:代表广告,u:代表受众,c:代表媒体
其中在模型训练步骤中,优选使用下面多级逻辑回归模型:
p(click|a,u,c)=σ(wtx)
其中,wt:表示n维特征权重向量(参数),x:表示n维特征向量
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京集奥聚合网络技术有限公司,未经北京集奥聚合网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410001103.X/2.html,转载请声明来源钻瓜专利网。