[发明专利]一种基于词嵌入和深度时序模型的自动建模系统在审
| 申请号: | 202110564485.7 | 申请日: | 2021-05-24 |
| 公开(公告)号: | CN113177644A | 公开(公告)日: | 2021-07-27 |
| 发明(设计)人: | 黎婧璇;时玥;谭俊 | 申请(专利权)人: | 北京融七牛信息技术有限公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00 |
| 代理公司: | 北京山允知识产权代理事务所(特殊普通合伙) 11741 | 代理人: | 胡冰;邓玉婷 |
| 地址: | 100043 北京市石景山区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 嵌入 深度 时序 模型 自动 建模 系统 | ||
1.一种基于词嵌入和深度时序模型的自动建模系统,其特征在于,包括:挖掘模块、数据读取模块、数据预处理模块和模型训练模块,
挖掘模块基于词嵌入和深度时序模型进行挖掘,生成大数据集群读取数据;
数据读取模块从大数据集群读取数据;
数据预处理模块对读取的数据进行处理,数据预处理模块进行如下操作:样本抽样、样本分区、特征筛选、缺失值填充和特征值映射;
模型训练模块对于训练集数据使用不同的模型进行训练,得到训练集、验证集的模型预测结果。
2.根据权利要求1所述的自动建模系统,其特征在于,挖掘模块进行如下操作:
格式转换,将获取的用户行为按用户进行组织,得到每个用户的行为序列;
信息映射,利用词嵌入技术将用户行为序列中的每一个点击行为加工成向量,将整个行为序列表示为多个固定维度向量的时序特征宽表;和
序列挖掘,处理随时间动态变化的序列信息,基于当前的趋势,预测未来的行为。
3.根据权利要求2所述的自动建模系统,其特征在于,挖掘模块基于GloVe进行信息映射,基于LSTM算法和GRU算法来进行序列挖掘。
4.根据权利要求3所述的自动建模系统,其特征在于,序列挖掘后的隐藏层向量、输出层概率存入宽表中,并且与其他特征表拼接。
5.根据权利要求1所述的自动建模系统,其特征在于,挖掘模块的输入数据为埋点获取的用户行为和用户标签,输出为用户的行为序列挖掘出的对应向量和利用行为对标签的预测概率。
6.根据权利要求1所述的自动建模系统,其特征在于,还包括模型评估模块,模型评估模块的输出的用于评估模型效果的指标包括:准确率、召回率、精准度、基尼系数、F1统计量、混淆矩阵、ROC曲线图、AUC、KS曲线图、提升度曲线图、召回率曲线图和响应率曲线图;MSE、RMSE、R2、调整R2、SMAPE、EVS、Median absolute error、MAE、特征的残差图、预测值与实际值对比图、分位数-分位数图和预测值残差分布图;簇内的点到中心点的距离平方和;正确率、混淆矩阵、准确率和召回率。
7.根据权利要求1所述的自动建模系统,其特征在于,数据预处理模块对读取的数据进行处理,数据预处理模块包括:样本抽样模块、样本分区模块,其中,样本抽样模块根据设定的采样比率对样本进行随机抽样或分层抽样,样本分区模块按照设定的样本划分比率将样本划分为训练集和验证集。
8.根据权利要求7所述的自动建模系统,其特征在于,数据预处理模块还包括样本配比模块和概率校正模块,样本配比模块能够对负样本进行抽样,调整正样本在总样本中的占比,概率校正模块对建模结果概率进行调整,使用先验概率进行校正。
9.根据权利要求1所述的自动建模系统,其特征在于,数据预处理模块还包括特征分析模块,特特征分析模块结合样本标签,统计每一维特征的KS指标、IV指标和PSI指标。
10.根据权利要求1所述的自动建模系统,其特征在于,数据预处理模块还包括缺失值填充模块,其对数据中缺失值进行处理,模型训练模块还包括特征值映射模块,其在训练集上进行特征值映射。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京融七牛信息技术有限公司,未经北京融七牛信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110564485.7/1.html,转载请声明来源钻瓜专利网。





