[发明专利]一种异构数据集特征质量可视化方法在审
申请号: | 201610130663.4 | 申请日: | 2016-03-08 |
公开(公告)号: | CN105718600A | 公开(公告)日: | 2016-06-29 |
发明(设计)人: | 汤奇峰;薛守辉 | 申请(专利权)人: | 上海晶赞科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/24;G06N99/00;G06Q30/02 |
代理公司: | 上海翰信知识产权代理事务所(普通合伙) 31270 | 代理人: | 张维东 |
地址: | 200072 上海市闸*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 特征 质量 可视化 方法 | ||
技术领域
本发明涉及机器学习领域,尤其涉及一种异构数据集特征质量可视化方法。
背景技术
近年来,随着大数据行业的发展,很多行业都产生了海量数据,数据种类、数据规模和 数据维度都在不断膨胀。为了从大量数据中发现知识和价值,机器学习算法在工业界的应用 越来越广泛。除了数据样本不断膨胀,数据特征种类和维度也在迅猛增长,特征维度可以达 到千万甚至更大。
海量的特征会给后续机器学习算法在可扩展性和效果方面带来一些问题,影响效果的主 要原因有两个方面:1)大量特征与预测目标无关或相关程度较低,即特征相关度(FRS,Feature RelevanceScore)较差;2)部分特征与预测目标相关程度较高,但其在训练集和测试集(或 训练阶段和应用阶段)的分布差异显著,即特征稳定程度(FSL,FeatureStabilityLevel) 较差。
在有监督学习领域,特征工程是非常重要的环节,而特征工程要解决的问题可以分为: 特征评估、特征归因、特征选择和特征改进。传统的特征选择方法,对特征质量的评估往往 只考了到特征相关度,例如特征与标签的互信息,而没有将特征稳定性和特征相关性作为一 个二元指标进行量化研究或可视化分析。因此本发明既考虑特征相关度、同时兼顾特征稳定 度,通过极坐标系将两者构成的指标二元组进行可视化。本发明的特征质量(FQ,Feature Quality),具体指特征相关度和特征稳定度构成的二元组或者其所表达的特征对于特定预测 模型的重要程度。
本发明适的领域包括:1)迁移学习,训练集和测试集是跨行业或跨领域的情况;2)非 迁移学习,训练集和测试集,不同时间的数据集分布差异较大的情况。
在传统的机器学习框架下,学习的任务是在给定充分训练数据的基础上学习一个分类模 型或回归模型,然后利用学习到的模型来对测试集样本进行分类或预测。然而实际应用中, 经常会看到新的领域涌现,比如从传统的新闻,到网页、图片、博客、播客等,这新的领域 或数据集往往缺乏标注;另一方面,传统的机器学习假设训练数据和测试数据服从相同的分 布,而实际情况下,这种同分布假设并不满足。因此,如何利用现有的大量有标注、但不通 分布的训练数据,迁移知识,用来帮助学习,是迁移学习需要解决的问题。
迁移学习(TransferLearning)的目标是将从一个环境中学习的知识用来帮助新环境的 学习任务。迁移学习的重要特点是不对训练集和测试集做同分布假设,即两个数据集是异构 的。通常迁移学习中的训练集数据和特征会非常多,因此仅从特征的角度要让从训练集的学 习到的模型能够有效预测测试集,就需要对大量特征进行评估、选择,以选出哪些分布变化 较小、且与预测目标相关的特征集合。
例如在广告转化率模型中,往往从行业数据学习模型,来预测行业内的某个客户的广告 是否会转化;或者从一个行业训练模型,来预测类似行业的广告是否会转化。类似这样的迁 移学习问题,很有必要通过特征可视化方法来进行特征评估、特征归隐、特征选择和特征改 进。
另外,在非迁移学习领域也有类似的训练集和测试集异构的情况,比如广告转化率模型 中某客户的平时数据集和节日数据集,如果用平时数据集预测节日数据集可能就导致预测不 准问题,因此也是本专利提到的“异构数据集”问题。
发明内容
本发明的目的是为了解决现有技术的不足,提供一种异构数据集的极坐标可视化的特征 评估与特征选择方法,不仅可以增加对预测问题的直观理解、产生解释性强的特征评估报告, 还可以根据特征评估报告进行特征选择和特征改进,以使后续的监督式机器学习模型面对异 构数据集时仍可以克服特征不稳定性带来的不利影响,进行更有效的学习。本发明适用于下 列情况:1)异构数据集假设下,训练集和测试集产生机理不同、产生领域不同或者有着层级 关系,包括典型的迁移学习;2)同构数据集假设下,数据本身随时间产生周期性或非周期性 漂移的情况;3)同构数据集假设下,数据本身具有内生性波动,即本质随机性,表现在部分 特征分布的方差较大的情况;4)同构数据集假设下,数据分布不变化,即训练集和测试集同 分布的情况。
本发明的目的是通过以下技术方案实现的:
一种异构数据集特征质量可视化方法(HeterogeneousDatasetFeatureQuality Visualization,以下简称HeDFQV),至少包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海晶赞科技发展有限公司,未经上海晶赞科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610130663.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种复杂产品的复杂模型的建立方法
- 下一篇:助推式鲜木薯原料浮选清杂装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置