[发明专利]一种数据处理系统及方法有效
申请号: | 201611110243.6 | 申请日: | 2016-12-06 |
公开(公告)号: | CN108154237B | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 张长征;白小龙;涂丹丹 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06N7/00 | 分类号: | G06N7/00 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理系统 方法 | ||
本发明实施例公开了一种数据处理装置,该装置用于在利用一个子样本数据集计算完每个参数的一组梯度信息之后,将这一个子样本数据集删掉后再读取下一个子样本数据集,并利用下一个子样本数据集计算每个参数的另一组梯度信息。将计算得到的每个参数的多组梯度信息分别累计后得到所述每个参数的更新梯度。
技术领域
本发明涉及大数据技术领域,尤其涉及一种数据处理系统及方法。
背景技术
随着信息技术的发展,企业大数据迅速增长。采用机器学习(包括深度学习)对该企业大数据进行数据分析,可以得出一些规律,这些规律有很多用途,例如:可以用来做预测等。
在现有技术中,企业大数据通常是海量的,在采用机器学习算法对该企业大数据进行分析的过程中,如何提升机器学习模型的收敛速度是目前亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种数据处理系统及方法,以提升机器学习模型的收敛速度。
第一方面,本发明的实施例提供一种数据处理装置,所述数据处理装置包括:梯度计算模块,累计模块,以及发送模块;所述梯度计算模块,用于在一次迭代运算过程中,从样本数据集依次读取多个子样本数据集,所述子样本数据集包括至少一个样本数据,将读入的每个子样本数据集分别输入机器学习模型,计算所述机器学习模型的多个参数中的每个参数的梯度信息,并且,在利用一个子样本数据集计算完每个参数的一组梯度信息之后,将这一个子样本数据集删掉后再读取下一个子样本数据集,并利用下一个子样本数据集计算每个参数的另一组梯度信息,所述机器学习模型是具有初始化全局参数的机器学习模型,或者是在上一次迭代运算中经过更新的机器学习模型;所述累计模块,用于在所述一次迭代运算过程中,将计算得到的每个参数的多组梯度信息分别累计后得到所述每个参数的更新梯度;所述发送模块,用于在所述一次迭代运算过程中,将每个参数的所述更新梯度发送,所述每个参数的所述更新梯度用于更新所述机器学习模型。
在上述实施例中,在每一次迭代运算中,由于将上一次读入的子样本数据集做了删除,所以所述数据处理装置可以再次从样本数据集读取子样本数据集,这样,所述数据处理装置可以多次从样本数据集读取子样本数据集,计算多组梯度信息,并将所述多组梯度信息累计。这样,可以提供根据充足的样本数据计算更新梯度,从而可以提升大规模机器学习模型的收敛速度。另外,数据处理装置将根据多个子样本数据集计算出来的梯度信息经过累计后再发送给模型更新模块,减少了模型更新模块与数据处理装置之间通信的次数。由于减少了模型更新模块与数据处理装置之间通信的次数,相应地减少了模型更新模块与数据处理装置之间的通信所占用的时间,从而减少了多次迭代运算的总时间,提高了机器学习的速度。
在第一方面的第一种可能的实现方式中,所述梯度计算模块,所述累计模块,以及所述发送模块进一步用于参与所述一次迭代运算之后的多次迭代运算,直至所述机器学习模型收敛或者完成指定迭代次数的计算;在所述一次迭代运算之后的多次迭代运算中的每一次迭代运算中,所述梯度计算模块和所述累计模块,以及所述发送模块重复在所述一次迭代运算过程中的动作,在所述一次迭代运算以及所述一次迭代运算之后的多次迭代运算中,所述机器学习模型在采用一次迭代运算中得到的更新梯度被更新后,被输入后一次的迭代运算。
结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述累计模块具体用于:针对根据所述读取的多个子样本数据集,分别得到的每个参数的多组梯度信息,分别将属于同一个参数的多组梯度信息累计,得到每个参数的更新梯度。
结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第三种可能的实现方式中,所述累计模块具体用于:针对根据每一个子样本数据集,得到的每个参数的一组梯度信息,分别将属于同一个参数的一组梯度信息累计,得到每个参数的累计梯度,这样,针对所述读取的多个子样本数据集,得到每个参数的多个累计梯度,再将每个参数的多个累计梯度分别累计,得到每个参数的更新梯度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611110243.6/2.html,转载请声明来源钻瓜专利网。