[发明专利]数据模型训练方法、装置、电子设备及可读介质在审

专利信息
申请号: 201810981379.7 申请日: 2018-08-27
公开(公告)号: CN110866605A 公开(公告)日: 2020-03-06
发明(设计)人: 李海龙 申请(专利权)人: 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号: G06N20/00 分类号: G06N20/00;G06F9/50
代理公司: 北京律智知识产权代理有限公司 11438 代理人: 袁礼君;阚梓瑄
地址: 100195 北京市海淀区杏石口路6*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据模型 训练 方法 装置 电子设备 可读 介质
【说明书】:

本申请提供一种数据模型训练方法、装置、电子设备及可读介质,该方法包括:按照预定规则将训练数据进行分组处理,生成多个分组数据;将所述多个分组数据分别输入多个数据模型中进行数据训练,所述多个数据模型运行在多个虚拟容器中;在数据训练后获取多个数据模型的多组模型参数;以及通过所述多组模型参数分别确定多个第一数据模型。本申请的数据模型训练方法、装置、电子设备及可读介质,能够提高算法模型在面对海量样本时的训练速度,极大地缩短了算法寻优时间和交付时间,并提高准确率和稳定性。

技术领域

本申请涉及机器学习领域,尤其涉及一种数据模型训练方法、装置、电子设备及计算机可读介质。

背景技术

机器学习是通过机器学习算法,使机器能够从已有的大量的数据样本中学习规律,从而当输入新的数据样本时,机器可实现智能识别或预测功能。大量研究表明,参与训练的样本越多,机器学习算法模型收敛的准确度就相对越高。而现有的机器学习算法在其开发训练的流程中,通常由算法工程师先在部分少量的样本上做试验,不断改进算法模型,提升算法的准确度以达到业务要求;再由软件工程师对算法模型进行工程实现并上线,由于在整体样本上算法的准确度无法保障,经常需要很长时间的线上改进,才能达到一个稳定的状态。

然而,上述对算法模型的训练流程具有一定的缺陷,具体如下所述:

(1)由于算法工程师在部分样本的上做的试验,基于部分样本调整的算法参数,在整体样本未必最优,一般都需要重新调整,但是在海量的整体样本中,一次参数验证就可能需要耗费十几个小时,寻优过程非常缓慢,无法在短时间内找到最优参数。且不能做到参数随着样本的增长自动调整。

(2)算法工程师开发的算法代码依赖了很多科学算法包,由于算法的开发环境和线上环境的差异,会浪费算法工程师和软件工程师大量重复的劳动,在工程实现中,经常碰到数据倾斜问题和内存溢出问题,算法工程实现较难。

(3)算法工程师开发的算法代码,一般都是单机运行的,不能在分布式的环境下运行,算法执行效率低。

发明内容

有鉴于此,本申请提供一种数据模型训练方法、装置、电子设备及计算机可读介质,能够提高算法模型在面对海量样本时的训练速度,极大地缩短了算法寻优时间和交付时间,并提高准确率和稳定性。

本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。

根据本申请实施例的第一方面,提出一种数据模型训练方法,该方法包括:按照预定规则将训练数据进行分组处理,生成多个分组数据;将所述多个分组数据分别输入多个数据模型中进行数据训练,所述多个数据模型运行在多个虚拟容器中;在数据训练后获取多个数据模型的多组模型参数;以及通过所述多组模型参数分别确定多个第一数据模型。

在本申请的一种示例性实施例中,还包括:对原始数据进行预处理以生成所述训练数据。

在本申请的一种示例性实施例中,对原始数据进行预处理以生成所述训练数据包括:将原始数据按照时间进行排序以生成所述训练数据。

在本申请的一种示例性实施例中,按照预定规则将所述训练数据进行分组处理,生成多个分组数据包括:按照商品类别将所述训练数据进行分组处理,生成多个分组数据。

在本申请的一种示例性实施例中,按照商品类别将所述训练数据进行分组处理,生成多个分组数据包括:按照商品类别所述训练数据进行分组处理,生成多个第一分组数据;以及按照所述第一分组数据的数据量将所述第一分组数据进行分组处理,以生成所述多个分组数据。

在本申请的一种示例性实施例中,还包括:将所述多个分组数据分别输入多个数据模型中进行数据训练,所述多个数据模型运行在多个虚拟容器中包括:将所述多个分组数据储存在多个任务执行单元中;以及将多个任务执行单元与多个虚拟容器进行关联以进行数据训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810981379.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top