[发明专利]自动化机器学习、训练方法、装置及存储介质在审

专利信息
申请号: 202011303421.3 申请日: 2020-11-19
公开(公告)号: CN112396188A 公开(公告)日: 2021-02-23
发明(设计)人: 陈海波;其他发明人请求不公开姓名 申请(专利权)人: 深延科技(北京)有限公司
主分类号: G06N20/00 分类号: G06N20/00
代理公司: 常州佰业腾飞专利代理事务所(普通合伙) 32231 代理人: 滕诣迪
地址: 100081 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自动化 机器 学习 训练 方法 装置 存储 介质
【说明书】:

本发明公开了一种自动化机器学习、训练方法、装置及存储介质,包括:自动数据清洗步骤,清洗原始专利信息不规范字段及噪声;自动特征工程步骤;AutoML自动特征工程步骤,将原始特征清洗成AutoML系统处理格式,进行自动特征生成及场景类型特征选择迭代;所述的特征选择迭代采用lightGBM单模型;所述的特征强化步骤,通过业务逻辑,结合已有特征的重要性,挖掘业务信息,构造反应业务信息的特征;自动特征选择步骤,对专利的特征进行选择评分;自动模型融合步骤;采用Stacking+Bagging的方式进行模型融合增强结果稳定性。本发明构建了多种不同类型模型的集成,使得集成之后的模型效果有所提升。

技术领域

本申请涉及机器学习领域,具体而言,涉及一种自动化机器学习、训练方法、装置及存储介质。

背景技术

IEEE ISI是安全信息学领域的旗舰会议,于2003年首次在美国亚利桑那州图森市召开。在过去的16年中,IEEE ISI会议已经从传统的智能和安全领域发展到多领域联合研究与创新。为促进人工智能赋能的解析学技术(AI-Enabled Analytics)的产业落地,并为全球学术界和产业界同行提供一个学术交流与技术探讨的平台,IEEE ISI会议特发起本届国际大数据分析竞赛(IEEE ISI World Cup 2019,IWC 2019)本次比赛从2019年2月1日开始报名,期间2019年5月1日发布比赛结果,到7月1日举办Workshop,历时5个月,为研究人员和行业从业者提供了一个国际论坛,供大家分享在ISI领域的创新想法,原创成果和实践经验。

主办方为本次比赛提供了基于3500家上市公司全量信息,描述公司在财务、法务、股权、经营状况、舆论等方面的属性特征。共设计两个赛题:企业投资价值评估和法律诉讼类型预测。

本发明可通过企业的年报、财务信息、经营信息、资产信息、税务信息、知识产权等企业综合信息对企业投资情况进行打分,为投资者提供投资依据。

发明内容

1、本发明的目的

本发明为了解决能够自动对企业的投资情况进行打分,而提出了一种自动化机器学习方法。

2、本发明所采用的技术方案

本发明公开了一种自动化机器学习方法,包括:

自动数据清洗步骤,清洗原始特征中专利信息不规范字段及噪声;

自动特征工程步骤,包括AutoML自动特征工程步骤和特征强化步骤;所述AutoML自动特征工程步骤,将所述原始特征清洗为AutoML系统处理格式,进行自动特征生成及场景类型特征选择迭代;所述的特征选择迭代采用lightGBM单模型;所述的特征强化步骤,获取预设业务逻辑信息,构造反应业务信息的特征;

自动特征选择步骤,对专利的特征进行选择评分;

自动模型融合步骤,采用Stacking学习使用底层学习器的预测结果,在Bagging中使用不同seed生成模型,最后将Stacking的结果与Bagging结果进行简单线性加权融合作为最终预测结果。

优选的,所述的AutoML自动特征工程步骤;将所述原始特征清洗成AutoML系统处理格式,进行自动特征生成及场景类型特征选择迭代,所述的原始特征包括数值类型,分类类型,时间类型以及文本类型;所述的特征选择迭代采用lightGBM单模型,选择和本次任务契合的场景类型进行自动特征工程,在每一轮场景类型特征迭代过程中根据上一轮场景类型特征的重要性分配权重进行迭代更新。

优选的,所述的特征强化步骤:

对所述的数值类型和类目特征生成统计特征,以及数值和分类的聚合特征;

对所述的时间类型,提取周期性特征;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深延科技(北京)有限公司,未经深延科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011303421.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top