[发明专利]一种训练模型信息输出方法及装置在审
申请号: | 201610133577.9 | 申请日: | 2016-03-09 |
公开(公告)号: | CN107180035A | 公开(公告)日: | 2017-09-19 |
发明(设计)人: | 毛仁歆 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京博思佳知识产权代理有限公司11415 | 代理人: | 林祥 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 训练 模型 信息 输出 方法 装置 | ||
技术领域
本申请涉及数据分析技术领域,尤其涉及一种训练模型信息输出方法及装置。
背景技术
数据挖掘工程师在完成一项模型训练任务之后,如果模型评估的结果符合预期,则需要将该模型的相关信息以模型文件的形式输出,以便后续部署到系统中实际应用。
为了令产出的模型文件能够具有较好的通用性,一般还会采用一定的标准格式对模型的相关信息进行输出,目前较为常见的模型描述标准包括PMML(Predictive Model Markup Language,预测模型标记语言)等。理想情况下,只要系统中安装了相应的标准格式解析器,则可以很方便地读取采用该标准格式输出的模型文件,并将对应的模型直接部署到系统上。
然而,根据现有技术的方案,在输出模型文件时,仅会记录该模型本身的特征信息,例如对于一个训练后得到的模型y=ax2+bx+c,其中x对应输入数据,y对应输出数据,a、b、c分别为训练得出的参数,则在模型文件中需要记录的信息包括公式ax2+bx+c以及a、b、c的具体取值,即“输入”→“输出”的对应关系信息。但是在实际训练模型的过程中,工程师可能需要在给定的训练样本数据的基础上增加一些特殊处理,例如缺失值填充、离散化等等。这种情况下,训练样本数据并不等同于模型的输入数据,换言之,在后续将模型部署到系统时,获取到的实际数据也不能直接输入模型进行计算。进而,在模型部署阶段,除了读取模型文件中的信息之外,还需要开发人员在系统中手动写入与 该模型对应的缺失值填充、离散化等处理逻辑,以配合模型使用。可见,在这种情况下,模型文件的通用性已经难以体现,进而导致了模型部署难度的提升,特别是当模型需要在多个系统间进行移植时,总体的投入成本将明显增加。
发明内容
针对上述技术问题,本申请提供一种训练模型信息输出方法及装置,技术方案如下:
根据本申请的第一方面,提供一种训练模型信息输出方法,该方法包括:
根据模型训练需求,对训练样本数据进行预处理,得到预处理结果,并且对所述预处理的逻辑进行记录;
利用所述预处理结果作为模型输入数据,通过训练处理得到训练模型;
将所述训练模型的特征信息以及所述预处理的逻辑写入模型文件进行输出。
根据本申请的第二方面,提供一种训练模型信息输出装置,其特征在于,该装置包括:
预处理模块,用于对训练样本数据进行预处理,得到预处理结果;
处理逻辑记录模块,用于对所述预处理的逻辑进行记录;
训练模块,用于利用所述预处理结果作为模型输入数据,通过训练处理得到训练模型;
输出模块,用于将所述训练模型的特征信息以及所述预处理的逻辑写入模型文件进行输出。
本申请实施例所提供的技术方案,在模型训练处理的过程中,对数据预处理的逻辑也进行记录,并且将预处理逻辑与最终的训练得到的结果汇总后写入模型文件中。这样,在模型部署阶段,通过读取模型文件,就可以获得预处理逻辑和模型的相关信息,根据这两部分信息,可以直接将数据预处理模块和模型处理模块自动部署到系统上。与现有技术相比,本申请方案可以令通过预处理数据训练得到的模型信息也能够以通用的方式进行保存,从而避免在部署阶段的人工重写步骤,有效降低了模型的部署难度和成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本申请的训练模型信息输出方法的第一种流程示意图;
图2是本申请的训练模型信息输出方法的第二种流程示意图;
图3是本申请的训练模型信息输出装置的结构示意图。
具体实施方式
为了使本领域技术人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请保护的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610133577.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:MySQL数据库的集群系统
- 下一篇:一种数据读取方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置