[发明专利]提高数据可视化质量的方法、装置和计算机可读存储介质在审
申请号: | 202010477079.2 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111625529A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 李国良;骆昱宇;冯建华 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06F16/28;G06F16/26 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 蒋冬梅;栗若木 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提高 数据 可视化 质量 方法 装置 计算机 可读 存储 介质 | ||
本申请实施例公开了一种提高数据可视化质量的方法、装置和计算机可读存储介质,该方法包括:获取关系型数据表,对关系型数据表进行数据可视化获取初始的数据可视化结果;通过数据清洗模型检测初始的数据可视化结果中包含的数据错误并生成候选修复建议;根据数据错误和修复建议构建错误‑修复图;从错误‑修复图中选取出最佳复合子图;将最佳复合子图传输给用户使用户与最佳复合子图进行交互式数据清洗,获取交互式数据清洗结果;根据交互式数据清洗结果迭代地对关系型数据表进行数据错误修复,获取新的数据可视化结果。通过该实施例方案,降低了数据清洗的成本;避免错误可视化结果误导用户得出错误分析的结果。
技术领域
本文涉及信息检索技术,尤指一种提高数据可视化质量的方法、装置和计算机可读存储介质。
背景技术
在大数据时代,数据可视化(Data Visualization)是一种十分有效的数据分析手段。例如,民航局可以通过可视化的方式分析航班公司、航班号、航班起飞延误等数据来发现航班延误和时间的关系,从而进一步改进航班调度等工作方法。电力公司可以分析地区用电量之间的分布特征和用电量随时间的变化趋势,从而调整电力供应策略。数据可视化可以将数据以可视化图表的形式呈现,从而帮助数据分析师更加直观地理解和分析数据,进而加速知识发现和数据驱动的决策过程。然而,如果数据本身是包含了一些诸如重复值、别名、异常值和缺失值等错误,往往会影响数据可视化的结果,进而容易使得用户得出错误的分析结论。
为了尽可能使得数据可视化的结果不被脏数据影响,通常需要进行数据清洗(Data Cleaning),然后再执行后续的数据分析任务。对于数据清洗来说,现有的方案基本是在进行数据可视化之前,使用机器算法检测数据集中可能包含的错误(Data ErrorsDetection),然后再使用机器算法或者人机结合的框架来进行错误的修复(Data ErrorsRepairing),当数据清洗干净之后,再执行数据分析任务,例如数据可视化。但是,传统的方案带来的一个问题即是,数据清洗并没有与后续的数据分析任务有机地耦合在一起,数据清洗的目标是使得数据集中所有的数据错误都被清洗干净,并有可能将不用于后续分析的数据也清洗了,并且由于数据清洗通常需要与人交互(Human-in-the-loop),因此,通过这种方式进行数据清洗的成本较大。
发明内容
本申请实施例提供了一种提高数据可视化质量的方法和装置,能够降低数据清洗的成本,节省数据清洗的代价,提高数据可视化的质量,从而避免由数据错误引起的可视化结果误导用户得出错误的分析。
本申请实施例提供了一种提高数据可视化质量的方法,所述方法可以包括:
获取关系型数据表D,并对所述关系型数据表D进行数据可视化,获取初始的数据可视化结果Q(D);
通过预先训练好的数据清洗模型检测所述初始的数据可视化结果Q(D)中包含的数据错误,并生成候选的修复建议;
根据检测出的数据错误和所述修复建议构建错误-修复图其中,所述错误-修复图中的顶点和边分别代表不确定的数据错误和对应的修复建议;
从所述错误-修复图中选取出最佳复合子图;
将所述最佳复合子图传输给用户,使用户与所述最佳复合子图进行交互式数据清洗,并获取交互式数据清洗结果;
根据所述交互式数据清洗结果迭代地对所述关系型数据表D进行数据错误修复,并获取新的数据可视化结果。
在本申请的示例性实施例中,所述对所述关系型数据表D进行数据可视化可以包括:采用数据可视化查询的方式进行数据可视化。
在本申请的示例性实施例中,所述数据错误可以包括以下任意一种或多种:实体重复、别名、缺失值和异常值;
所述数据清洗模型可以包括分别与所述数据错误对应的一种或多种子数据清洗模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010477079.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种螺旋桨飞机舱内噪声高频仿真方法
- 下一篇:扫码枪识别的优化方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置