[发明专利]提高数据可视化质量的方法、装置和计算机可读存储介质在审

专利信息
申请号: 202010477079.2 申请日: 2020-05-29
公开(公告)号: CN111625529A 公开(公告)日: 2020-09-04
发明(设计)人: 李国良;骆昱宇;冯建华 申请(专利权)人: 清华大学
主分类号: G06F16/215 分类号: G06F16/215;G06F16/22;G06F16/28;G06F16/26
代理公司: 北京安信方达知识产权代理有限公司 11262 代理人: 蒋冬梅;栗若木
地址: 10008*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 提高 数据 可视化 质量 方法 装置 计算机 可读 存储 介质
【说明书】:

本申请实施例公开了一种提高数据可视化质量的方法、装置和计算机可读存储介质,该方法包括:获取关系型数据表,对关系型数据表进行数据可视化获取初始的数据可视化结果;通过数据清洗模型检测初始的数据可视化结果中包含的数据错误并生成候选修复建议;根据数据错误和修复建议构建错误‑修复图;从错误‑修复图中选取出最佳复合子图;将最佳复合子图传输给用户使用户与最佳复合子图进行交互式数据清洗,获取交互式数据清洗结果;根据交互式数据清洗结果迭代地对关系型数据表进行数据错误修复,获取新的数据可视化结果。通过该实施例方案,降低了数据清洗的成本;避免错误可视化结果误导用户得出错误分析的结果。

技术领域

本文涉及信息检索技术,尤指一种提高数据可视化质量的方法、装置和计算机可读存储介质。

背景技术

在大数据时代,数据可视化(Data Visualization)是一种十分有效的数据分析手段。例如,民航局可以通过可视化的方式分析航班公司、航班号、航班起飞延误等数据来发现航班延误和时间的关系,从而进一步改进航班调度等工作方法。电力公司可以分析地区用电量之间的分布特征和用电量随时间的变化趋势,从而调整电力供应策略。数据可视化可以将数据以可视化图表的形式呈现,从而帮助数据分析师更加直观地理解和分析数据,进而加速知识发现和数据驱动的决策过程。然而,如果数据本身是包含了一些诸如重复值、别名、异常值和缺失值等错误,往往会影响数据可视化的结果,进而容易使得用户得出错误的分析结论。

为了尽可能使得数据可视化的结果不被脏数据影响,通常需要进行数据清洗(Data Cleaning),然后再执行后续的数据分析任务。对于数据清洗来说,现有的方案基本是在进行数据可视化之前,使用机器算法检测数据集中可能包含的错误(Data ErrorsDetection),然后再使用机器算法或者人机结合的框架来进行错误的修复(Data ErrorsRepairing),当数据清洗干净之后,再执行数据分析任务,例如数据可视化。但是,传统的方案带来的一个问题即是,数据清洗并没有与后续的数据分析任务有机地耦合在一起,数据清洗的目标是使得数据集中所有的数据错误都被清洗干净,并有可能将不用于后续分析的数据也清洗了,并且由于数据清洗通常需要与人交互(Human-in-the-loop),因此,通过这种方式进行数据清洗的成本较大。

发明内容

本申请实施例提供了一种提高数据可视化质量的方法和装置,能够降低数据清洗的成本,节省数据清洗的代价,提高数据可视化的质量,从而避免由数据错误引起的可视化结果误导用户得出错误的分析。

本申请实施例提供了一种提高数据可视化质量的方法,所述方法可以包括:

获取关系型数据表D,并对所述关系型数据表D进行数据可视化,获取初始的数据可视化结果Q(D);

通过预先训练好的数据清洗模型检测所述初始的数据可视化结果Q(D)中包含的数据错误,并生成候选的修复建议;

根据检测出的数据错误和所述修复建议构建错误-修复图其中,所述错误-修复图中的顶点和边分别代表不确定的数据错误和对应的修复建议;

从所述错误-修复图中选取出最佳复合子图;

将所述最佳复合子图传输给用户,使用户与所述最佳复合子图进行交互式数据清洗,并获取交互式数据清洗结果;

根据所述交互式数据清洗结果迭代地对所述关系型数据表D进行数据错误修复,并获取新的数据可视化结果。

在本申请的示例性实施例中,所述对所述关系型数据表D进行数据可视化可以包括:采用数据可视化查询的方式进行数据可视化。

在本申请的示例性实施例中,所述数据错误可以包括以下任意一种或多种:实体重复、别名、缺失值和异常值;

所述数据清洗模型可以包括分别与所述数据错误对应的一种或多种子数据清洗模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010477079.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top