[发明专利]预测流程模型的生成方法、装置、存储介质和电子设备有效
| 申请号: | 201811625614.3 | 申请日: | 2018-12-28 |
| 公开(公告)号: | CN109800887B | 公开(公告)日: | 2021-01-22 |
| 发明(设计)人: | 张延凤 | 申请(专利权)人: | 东软集团股份有限公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62 |
| 代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 李鹏;魏嘉熹 |
| 地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 预测 流程 模型 生成 方法 装置 存储 介质 电子设备 | ||
1.一种预测流程模型的生成方法,其特征在于,所述方法包括:
对原始训练数据进行数据转化处理,以生成用于描述所述原始训练数据的多个转化特征数据,所述数据转化处理的处理方式包括针对于无规律特征数据的处理模型以及针对于有规律特征数据的处理规则;
通过预设的特征评估算法对全量特征数据进行评估,以确定所述全量特征数据中的有效特征数据,所述全量特征数据包括所述原始训练数据和所述多个转化特征数据;
通过所述有效特征数据对从模型库中提取出的多个算法模型进行训练,以获取所述多个算法模型组合出的第一机器学习模型,所述第一机器学习模型用于预测用户活跃度;
对所述第一机器学习模型以及模型训练脚本中记录的所述处理规则进行拼装,以生成预测流程模型,所述预测流程模型为批处理预测流程模型或者流处理预测流程模型;
将新数据输入所述预测流程模型,以得到所述预测流程模型输出的所述新数据对应的用户活跃度;
所述特征评估算法为文字识别算法和连续型数字识别算法,所述通过预设的特征评估算法对全量特征数据进行评估,以确定所述全量特征数据中的有效特征数据,包括:
将所述多个转化特征数据添加至所述原始训练数据,以获取所述全量特征数据;
通过所述文字识别算法识别所述全量特征数据中具备姓氏文字的特征数据,通过所述连续型数字识别算法识别所述全量特征数据中具备连续数字的特征数据;
从所述全量特征数据中删除所述具备姓氏文字的特征数据和所述具备连续数字的特征数据,以获取所述有效特征数据。
2.根据权利要求1所述的方法,其特征在于,所述模型训练脚本还用于记录所述第一机器学习模型的训练步骤,在所述通过所述第一机器学习模型以及模型训练脚本中记录的所述处理规则,生成预测流程模型之后,所述方法还包括:
每隔预设时间间隔,针对于所述预设时间间隔内更新的训练数据和所述原始训练数据重新执行所述训练步骤,以训练出第二机器学习模型,所述训练步骤至少包括:转化特征数据生成步骤、特征数据评估步骤以及算法模型组合步骤;
通过所述第二机器学习模型替换所述第一机器学习模型,以对所述预测流程模型进行更新。
3.根据权利要求1所述的方法,其特征在于,所述通过数据转化方式对原始训练数据进行处理,以生成用于描述所述原始训练数据的多个转化特征数据,包括:
根据所述原始训练数据中每组特征数据的数据特性确定所述每组特征数据对应的处理模型或处理规则,以获取多种处理模型和多种处理规则;
通过所述每组特征数据对应的处理模型或处理规则对所述每组特征数据进行数据转化处理,以生成所述多个转化特征数据;
通过所述模型训练脚本记录所述多种处理模型和所述多种处理规则。
4.根据权利要求1所述的方法,其特征在于,所述通过所述有效特征数据对从模型库中提取出的多个算法模型进行训练,以获取所述多个算法模型组合出的第一机器学习模型,包括:
从所述模型库中提取对所述有效特征数据对应的每个预测单元进行预测所需的算法模型,以获取所述多个算法模型,所述每个预测单元对应于所述有效特征数据中的一组或多组特征数据;
通过所述有效特征数据对所述多个算法模型组合出的机器学习模型进行训练,以获取所述第一机器学习模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811625614.3/1.html,转载请声明来源钻瓜专利网。





