[发明专利]一种异构数据集特征质量可视化方法在审

申请号：	201610130663.4	申请日：	2016-03-08
公开（公告）号：	CN105718600A	公开（公告）日：	2016-06-29
发明（设计）人：	汤奇峰;薛守辉	申请（专利权）人：	上海晶赞科技发展有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/24;G06N99/00;G06Q30/02
代理公司：	上海翰信知识产权代理事务所(普通合伙) 31270	代理人：	张维东
地址：	200072 上海市闸***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据特征质量可视化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及机器学习领域，尤其涉及一种异构数据集特征质量可视化方法。

背景技术

近年来，随着大数据行业的发展，很多行业都产生了海量数据，数据种类、数据规模和数据维度都在不断膨胀。为了从大量数据中发现知识和价值，机器学习算法在工业界的应用越来越广泛。除了数据样本不断膨胀，数据特征种类和维度也在迅猛增长，特征维度可以达到千万甚至更大。

海量的特征会给后续机器学习算法在可扩展性和效果方面带来一些问题，影响效果的主要原因有两个方面：1)大量特征与预测目标无关或相关程度较低，即特征相关度(FRS，Feature RelevanceScore)较差；2)部分特征与预测目标相关程度较高，但其在训练集和测试集(或训练阶段和应用阶段)的分布差异显著，即特征稳定程度(FSL，FeatureStabilityLevel) 较差。

在有监督学习领域，特征工程是非常重要的环节，而特征工程要解决的问题可以分为：特征评估、特征归因、特征选择和特征改进。传统的特征选择方法，对特征质量的评估往往只考了到特征相关度，例如特征与标签的互信息，而没有将特征稳定性和特征相关性作为一个二元指标进行量化研究或可视化分析。因此本发明既考虑特征相关度、同时兼顾特征稳定度，通过极坐标系将两者构成的指标二元组进行可视化。本发明的特征质量(FQ，Feature Quality)，具体指特征相关度和特征稳定度构成的二元组或者其所表达的特征对于特定预测模型的重要程度。

本发明适的领域包括：1)迁移学习，训练集和测试集是跨行业或跨领域的情况；2)非迁移学习，训练集和测试集，不同时间的数据集分布差异较大的情况。

在传统的机器学习框架下，学习的任务是在给定充分训练数据的基础上学习一个分类模型或回归模型，然后利用学习到的模型来对测试集样本进行分类或预测。然而实际应用中，经常会看到新的领域涌现，比如从传统的新闻，到网页、图片、博客、播客等，这新的领域或数据集往往缺乏标注；另一方面，传统的机器学习假设训练数据和测试数据服从相同的分布，而实际情况下，这种同分布假设并不满足。因此，如何利用现有的大量有标注、但不通分布的训练数据，迁移知识，用来帮助学习，是迁移学习需要解决的问题。

迁移学习(TransferLearning)的目标是将从一个环境中学习的知识用来帮助新环境的学习任务。迁移学习的重要特点是不对训练集和测试集做同分布假设，即两个数据集是异构的。通常迁移学习中的训练集数据和特征会非常多，因此仅从特征的角度要让从训练集的学习到的模型能够有效预测测试集，就需要对大量特征进行评估、选择，以选出哪些分布变化较小、且与预测目标相关的特征集合。

例如在广告转化率模型中，往往从行业数据学习模型，来预测行业内的某个客户的广告是否会转化；或者从一个行业训练模型，来预测类似行业的广告是否会转化。类似这样的迁移学习问题，很有必要通过特征可视化方法来进行特征评估、特征归隐、特征选择和特征改进。

另外，在非迁移学习领域也有类似的训练集和测试集异构的情况，比如广告转化率模型中某客户的平时数据集和节日数据集，如果用平时数据集预测节日数据集可能就导致预测不准问题，因此也是本专利提到的“异构数据集”问题。

发明内容

本发明的目的是为了解决现有技术的不足，提供一种异构数据集的极坐标可视化的特征评估与特征选择方法，不仅可以增加对预测问题的直观理解、产生解释性强的特征评估报告，还可以根据特征评估报告进行特征选择和特征改进，以使后续的监督式机器学习模型面对异构数据集时仍可以克服特征不稳定性带来的不利影响，进行更有效的学习。本发明适用于下列情况：1)异构数据集假设下，训练集和测试集产生机理不同、产生领域不同或者有着层级关系，包括典型的迁移学习；2)同构数据集假设下，数据本身随时间产生周期性或非周期性漂移的情况；3)同构数据集假设下，数据本身具有内生性波动，即本质随机性，表现在部分特征分布的方差较大的情况；4)同构数据集假设下，数据分布不变化，即训练集和测试集同分布的情况。

本发明的目的是通过以下技术方案实现的：

一种异构数据集特征质量可视化方法(HeterogeneousDatasetFeatureQuality Visualization，以下简称HeDFQV)，至少包括以下步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海晶赞科技发展有限公司，未经上海晶赞科技发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610130663.4/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种异构数据集特征质量可视化方法在审

专利文献下载