[发明专利]样本生成和模型训练一体化的实现方法、装置在审

申请号：	201910807257.0	申请日：	2019-08-29
公开（公告）号：	CN110689047A	公开（公告）日：	2020-01-14
发明（设计）人：	方丰斌;周家英;王东旭;曲维平	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	11315 北京国昊天诚知识产权代理有限公司	代理人：	许振新;朱文杰
地址：	英属开曼群岛大开***	国省代码：	开曼群岛;KY
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	样本生成模型训练数据传输中止一体化配置申请部署
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种样本生成和模型训练一体化的实现方法、装置。该方法包括：将样本生成与模型训练部署在同一个作业中；采用多个模型对所述样本生成的数据进行模型训练；配置所述多个模型的可靠性，当所述多个模型中可靠性最高的模型出现异常时，中止所述样本生成的数据传输至所述多个模型，当所述多个模型中的其他模型出现异常时，仅中止所述样本生成的数据传输至该异常的模型。

技术领域

本说明书一般涉及计算机技术领域，具体涉及一种样本生成和模型训练一体化的实现方法、装置。

背景技术

在线学习(online learning)中，一份样本数据通常提供给多个模型训练使用，以减少样本生成所需的计算资源。当1个样本数据要提供给不同的模型训练使用时，则样本生成和模型训练一般需要分为2个不同的作业，例如通过Apache Flink/Apache Spark将样本生成和模型训练以2个作业的形式部署，并通过外部存储来串联，例如，SaLt State(SLS)。但是这会带来额外的存储开销，降低了训练的实时性。

如果把样本生成和模型训练在1个作业内实现，例如通过Apache Flink/ApacheSpark将样本生成和模型训练在1个作业中进行实现，虽然可以减少存储开销，但是有新的模型训练作业需要订阅样本时，则需要修改并重启作业，影响作业的连续性，并需要额外的恢复时间。

发明内容

本说明书提供了一种样本生成和模型训练一体化的实现方法、装置，不带来额外的性能和存储开销，实现数据低延迟处理。

本申请公开了一种样本生成和模型训练一体化的实现方法，包括：

将样本生成与模型训练部署在同一个作业中；

采用多个模型对所述样本生成的数据进行模型训练；

配置所述多个模型的可靠性，当所述多个模型中可靠性最高的模型出现异常时，中止所述样本生成的数据传输至所述多个模型，当所述多个模型中的其他模型出现异常时，仅中止所述样本生成的数据传输至该异常的模型。

在一个优选例中，将所述样本生成与所述模型训练部署在同一个作业中的方法为：所述样本生成和所述模型训练部署在同一个进程中的上下游节点。

在一个优选例中，将所述样本生成与所述模型训练部署在同一个作业中的方法为：所述样本生成和所述模型训练部署在物理节点的不同进程中，所述样本生成的最后一个节点通过共享内存与所述模型训练的第一个节点通信。

在一个优选例中，还包括：动态调整所述模型训练中的多个模型。

在一个优选例中，所述动态调整所述模型训练的步骤中包括创建模型，创建所述模型的步骤包括：

添加所述模型的下游节点；