[发明专利]逻辑回归梯度的计算方法和装置有效

专利信息
申请号: 201610045655.X 申请日: 2016-01-22
公开(公告)号: CN106997333B 公开(公告)日: 2020-07-28
发明(设计)人: 周俊 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F17/18 分类号: G06F17/18
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 张大威
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 逻辑 回归 梯度 计算方法 装置
【说明书】:

本申请提出一种逻辑回归梯度的计算方法和装置。该计算方法包括:获取训练数据,其中,训练数据包括X行用户数据和Y行点击数据,其中,Y行点击数据与X行用户数据对应;将X行用户数据转换为X列数据;对X列数据和权重向量进行切分以形成N个X列数据切分块和权重向量切分块;分别启动N个线程根据N个X列数据切分块和权重向量切分块以及对应的Y行点击数据生成N个子逻辑回归梯度;以及将N个子逻辑回归梯度进行拼接以形成全量逻辑回归梯度。本申请实施例的计算方法,使得计算机器可以支持超大规模逻辑回归模型的训练,提高计算速度,减少训练时间,并且极大地降低计算机器的内存使用量。

技术领域

本申请涉及互联网技术领域,尤其涉及一种逻辑回归梯度的计算方法和装置。

背景技术

逻辑回归作为网络广告CTR(Click-Through-Rate,点击到达率)中最为常用的模型,在业界中被大规模使用。谁能在有限的时间里面训练出逻辑回归模型,就能更好地为用户提供合理的广告,提升用户的使用体验。

在训练逻辑回归模型的过程中,最为核心的部分是梯度的计算。现有的梯度的计算方法,是通过在计算机器上启动多线程的方式来进行加速,然而,每个线程均需要一份全量的梯度向量存储在内存中。也就是说,在一台计算机器上如果启动10个线程来计算梯度,假设1份梯度向量为10亿,均为double数据,那么1个线程需要消耗约7.5G的内存,一共需要消耗计算机器75G的内存。这对于现有的计算机器来说通常是很难承受的。

进一步而言,在互联网领域中,要想提高网络广告的CTR,就必须要使用更多的训练数据,更大的特征来刻画长尾,从而满足用户需求。例如,在训练逻辑回归模型时,考虑到用户的性别、年龄、目前所在地等细粒度的特征,能够更加有效刻画用户的需求,从而更加精准的满足用户个性化需求。因此,如此大的逻辑回归模型使用现有技术很难进行训练。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本申请的第一个目的在于提出一种逻辑回归梯度的计算方法,该计算方法使得计算机器可以支持超大规模逻辑回归模型的训练,提高计算速度,减少训练时间,并且极大地降低计算机器的内存使用量。

本申请的第二个目的在于提出一种逻辑回归梯度的计算装置。

为达上述目的,本申请第一方面实施例提出了一种逻辑回归梯度的计算方法,包括以下步骤:获取训练数据,其中,所述训练数据包括X行用户数据和Y行点击数据,其中,所述Y行点击数据与所述X行用户数据对应;将所述X行用户数据转换为X列数据;对所述X列数据和权重向量进行切分以形成N个X列数据切分块和权重向量切分块;分别启动N个线程根据所述N个X列数据切分块和权重向量切分块以及对应的所述Y行点击数据生成N个子逻辑回归梯度;以及将所述N个子逻辑回归梯度进行拼接以形成全量逻辑回归梯度。

本申请实施例的计算方法,将训练数据和权重向量切分成内存中可以存放下的多个小区域,并启动对应个数的线程对个小区域进行并行计算,由此使得计算机器可以支持超大规模逻辑回归模型的训练,提高计算速度,减少训练时间,并且极大地降低计算机器的内存使用量。

为达上述目的,本申请第二方面实施例提出了一种逻辑回归梯度的计算装置,包括:获取模块,用于获取训练数据,其中,所述训练数据包括X行用户数据和Y行点击数据,其中,所述Y行点击数据与所述X行用户数据对应;转换模块,用于将所述X行用户数据转换为X列数据;切分模块,用于对所述X列数据和权重向量进行切分以形成N个X列数据切分块和权重向量切分块;生成模块,用于分别启动N个线程根据所述N个X列数据切分块和权重向量切分块以及对应的所述Y行点击数据生成N个子逻辑回归梯度;拼接模块,用于将所述N个子逻辑回归梯度进行拼接以形成全量逻辑回归梯度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610045655.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top