[发明专利]自动化机器学习、训练方法、装置及存储介质在审
申请号: | 202011303421.3 | 申请日: | 2020-11-19 |
公开(公告)号: | CN112396188A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 陈海波;其他发明人请求不公开姓名 | 申请(专利权)人: | 深延科技(北京)有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 滕诣迪 |
地址: | 100081 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动化 机器 学习 训练 方法 装置 存储 介质 | ||
1.一种自动化机器学习方法,其特征在于,包括:
自动数据清洗步骤,清洗原始特征中专利信息不规范字段及噪声;
自动特征工程步骤,包括AutoML自动特征工程步骤和特征强化步骤;所述AutoML自动特征工程步骤,将所述原始特征清洗为AutoML系统处理格式,进行自动特征生成及场景类型特征选择迭代;所述的特征选择迭代采用lightGBM单模型;所述的特征强化步骤,获取预设业务逻辑信息,构造反应业务信息的特征;
自动特征选择步骤,对专利的特征进行选择评分;
自动模型融合步骤,采用Stacking学习使用底层学习器的预测结果,在Bagging中使用不同seed生成模型,最后将Stacking的结果与Bagging结果进行简单线性加权融合作为最终预测结果。
2.根据权利要求1所述的自动化机器学习方法,其特征在于,所述的AutoML自动特征工程步骤;将所述原始特征清洗成AutoML系统处理格式,进行自动特征生成及场景类型特征选择迭代,所述原始特征包括数值类型,分类类型,时间类型以及文本类型;所述的特征选择迭代采用lightGBM单模型,选择和本次任务契合的场景类型进行自动特征工程,在每一轮场景类型特征迭代过程中根据上一轮特征的重要性分配权重进行迭代更新。
3.根据权利要求2所述的自动化机器学习方法,其特征在于,所述的特征强化步骤:
对所述的数值类型和类目特征生成统计特征,以及数值和分类的聚合特征;
对所述的时间类型,提取周期性特征;
对所述的文本特征,采用TF-IDF、LDA方法提取特征;所述的TF-IDF评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度;字词的重要性随着所述字词在文件中出现的次数成正比增加,同时会随着所述字词在语料库中出现的频率成反比下降;具体为:
其中,TFw表示词条(关键字)在文本中出现的频率。
4.根据权利要求1所述的自动化机器学习方法,其特征在于,所述的自动特征选择步骤:
挖掘公司的专利在时间线上的活跃度,根据专利期限以及上升趋势,划分评分等级;
根据专利的申请审核流程,提交申请到审核结果的时间长度,提取企业在最近月份的专利数量以及所述专利大于预设阈值的种类,划分评分等级;
根据城市中各个行业的公司数量以及公司之间的相对密集度特征,划分企业竞争评分等级;
按照投资价值划分评分等级;
挖掘公司认证资格竞争力信息,通过构造公司资历完善度特征来划分公司实力评分等级。
5.根据权利要求1所述的自动化机器学习方法,其特征在于,所述的自动模型融合步骤;融合方法为Stacking,还包括第一层采用过的模型有LightGBM、XGBoost、RandomForest、Support Vector Regressor、ExtraTreesRegressor。
6.一种根据权利要求5所述的自动化机器学习训练方法,其特征在于,所述的Stacking方式融合,上层进行k折交叉验证。
7.根据权利要求6所述的自动化机器学习训练方法,其特征在于:采用LightGBM、XGBoost、Random Forest、Support Vector Regressor、ExtraTreesRegressor模型,将验证集矩阵并列在一起、测试集矩阵合并在一起。
8.根据权利要求7所述的自动化机器学习训练方法,其特征在于:在Bagging中使用不同seed以及随机调整参数分别生成多个LightGBM和多个XGBoost模型;最后将Stacking的结果与Bagging结果进行简单线性加权融合作为最终预测结果。
9.一种基于自动化机器学习装置,包括存储器和处理器,存储器存储有计算机程序,其特征在于;所述处理器执行所述计算机程序时实现如权利要求1-8任一所述的方法步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述的计算机程序被处理器执行时实现如权利要求1-8任一所述的方法步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深延科技(北京)有限公司,未经深延科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011303421.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电池模组
- 下一篇:一种铝合金电缆生产用检测装置