[发明专利]样本模型训练方法、样本生成方法、装置、设备及介质在审
申请号: | 202010218666.X | 申请日: | 2020-03-25 |
公开(公告)号: | CN111581877A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 张跃 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/08 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 周燕君 |
地址: | 518000 广东省深圳市福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 模型 训练 方法 生成 装置 设备 介质 | ||
1.一种样本模型训练方法,其特征在于,包括:
获取原始训练数据,所述原始训练数据包括样本标签和至少两个样本特征对应的特征数据;
将所述原始训练数据输入到基于树模型构建的初始森林模型,获取所述原始训练数据对应的One-Hot编码形式的原始高阶组合特征,所述初始森林模型包括依序排布的至少两棵特征树,每一所述特征树与一所述样本特征相对应,包括至少两个初始叶子节点;
基于所述样本标签和所述原始高阶组合特征进行稳定性筛选,确定有效叶子节点,基于所述有效叶子节点对所述初始森林模型的初始叶子节点进行截枝,获取有效森林模型;
将所述原始训练数据输入到所述有效森林模型,获取所述原始训练数据对应的One-Hot编码形式的有效高阶组合特征;
基于所述样本标签和所述有效高阶组合特征进行LR正则化筛选,确定目标叶子节点,基于所述目标叶子节点对所述有效森林模型中的有效叶子节点进行截枝,获取目标森林模型。
2.如权利要求1所述的样本模型训练方法,其特征在于,所述原始训练数据还包括时间标签;
所述基于所述样本标签和所述原始高阶组合特征进行稳定性筛选,确定有效叶子节点,包括:
基于所述时间标签和所述原始高阶组合特征进行饱和度分析,获取每一所述样本特征对应的饱和度分析结果;
基于所述样本标签和所述原始高阶组合特征进行重要性分析,获取每一所述样本特征对应的重要性分析结果;
若所述饱和度分析结果符合饱和度标准阈值,且所述重要性分析结果符合重要性标准阈值,则将所述样本特征对应的所述初始森林模型中的初始叶子节点确定为有效叶子节点。
3.如权利要求2所述的样本模型训练方法,其特征在于,所述基于所述时间标签和所述原始高阶组合特征进行饱和度分析,获取每一所述样本特征对应的饱和度分析结果,包括:
基于时间分组周期,对与所述时间标签相对应的原始高阶组合特征进行分组,获取至少两个时间特征组;
统计所述时间特征组中原始高阶组合特征的第一特征数量,统计所述时间特征组中同一样本特征对应的初始叶子节点中原始高阶组合特征的第二特征数量,基于所述第一特征数量和所述第二特征数量,确定每一所述初始叶子节点的当前饱和度;
对至少两个所述时间特征组中,同一所述初始叶子节点的当前饱和度进行标准差计算,获取每一样本特征对应的饱和度分析结果。
4.如权利要求2所述的样本模型训练方法,其特征在于,所述基于所述样本标签和所述原始高阶组合特征进行重要性分析,获取每一所述样本特征对应的重要性分析结果,包括:
从所述样本标签与模型训练目的相匹配的原始高阶组合特征中,统计同一样本特征对应的初始叶子节点中原始高阶组合特征的第三特征数量,将所述第三特征数量最大的样本特征值确定为所述样本特征对应的标准特征值;
原始高阶组合特征中每一所述样本特征对应的样本特征值与所述标准特征值,确定每一所述样本特征的当前相关系数;
对所有所述原始高阶组合特征对应的当前相关系数进行标准差计算,获取每一样本特征对应的重要性分析结果。
5.如权利要求1所述的样本模型训练方法,其特征在于,所述基于所述样本标签和所述有效高阶组合特征进行LR正则化筛选,确定目标叶子节点,包括:
将所有有效高阶组合划分成训练集和验证集,基于所述训练集中的有效高阶组合特征进行LR建模,调整L2正则化系数,使得所述验证集中的有效高阶组合特征的AUC最大,以获取目标LR模型;
基于所述目标LR模型,获取所述有效森林模型中的每一所述有效叶子节点对应的LR系数的绝对值;
选择所述LR系数的绝对值较大的预设数量的有效叶子节点,确定为目标叶子节点。
6.一种样本生成方法,其特征在于,包括:
获取待处理数据,所述待处理数据包括至少两个样本特征对应的特征数据;
将至少两个样本特征对应的特征数据输入权利要求1至5任一项所述样本模型训练方法确定的目标森林模型,将所述目标森林模型输出的One-Hot编码形式的目标高阶组合特征,确定为DeepFM模型的模型训练样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010218666.X/1.html,转载请声明来源钻瓜专利网。