[发明专利]一种基于自然语言的可视化数据清洗系统及方法在审
| 申请号: | 202011617367.X | 申请日: | 2020-12-30 |
| 公开(公告)号: | CN112667617A | 公开(公告)日: | 2021-04-16 |
| 发明(设计)人: | 尹源 | 申请(专利权)人: | 南京诚勤教育科技有限公司 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/242;G06F16/26 |
| 代理公司: | 北京中建联合知识产权代理事务所(普通合伙) 11004 | 代理人: | 王晓艳 |
| 地址: | 210000 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 自然语言 可视化 数据 清洗 系统 方法 | ||
本发明涉及数据处理技术领域,具体涉及一种基于自然语言的可视化数据清洗系统及方法,本发明通过服务器指定需要清洗的数据源相关连接信息;获取待清洗数据的前N条,并解析其字段类型和格式去除无用字段;设置清洗模块,并选择触发数据同步和清洗任务;将清洗模块的清洗规则反向解析为数据清洗脚本,并对数据执行该情形脚本,将清洗后的数据传入分析库,重复执行直至所有数据清洗完毕,完成清洗。本发明实现对数据的清洗,无需掌握数据清洗工具的开发和使用方法,降低了大数据应用服务的技术门槛,提升了用户对大数据服务的体验,解决了传统的数据清洗系统的灵活性及可维护性问题,使的数据清洗工作人员的使用成本得到降低,效率得到提升。
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于自然语言的可视化数据清洗系统及方法。
背景技术
近年来随着大数据技术的发展,为原来海量的日志、上网记录、历史数据等提供了新的分析技术手段,通过分析这些海量数据能够发现很多平时发现不到的有价值信息,要做大数据分析,第一步就是要把分散在各处的数据采集上来,进行清洗,清洗好的数据进行入库。这个过程又叫ETL,涉及extract数据抽取、Transformation数据转换、Load数据装载三个步骤。
过去数据清洗的手段针对不同的数据源需要采用不同的清洗工具,不同数据源的清洗均需要编写不同的程序和脚本,这些清洗手段要求用户掌握多种清洗工具的使用方法,具备较高的清洗工具的开发能力;导致数据清洗系统使用门槛高(需要学习针对数据源或清洗工具的相关专业知识),且数据清洗流程的维护成本高。
在专利号为CN201710011044.8的发明文件中,公开了一种数据清洗方法及数据清洗装置,该数据清洗方法包括:获取待清洗的原始样本数据;确定对所述原始样本数据进行清洗的至少一种数据筛选机制,并获取用户根据所述原始样本数据对每种所述数据筛选机制设定的筛选值;根据所述至少一种数据筛选机制和用户设定的所述筛选值对所述原始样本数据进行筛选,以对所述原始样本数据进行清洗。本发明的技术方案能够实现对原始样本数据的全面清洗,并且能够降低数据清洗过程对操作人员的依赖,确保数据清洗结果的准确性与稳定性,同时也能够有效缩短数据清洗的时长。
在专利号为CN201810143012的发明文件中,公开一种数据清洗方法和数据清洗系统。该数据清洗方法包括:步骤S10:通过图形化界面从异构数据源中选定待清洗的数据源;其中,异构数据源包括文本文件和数据库数据;步骤S11:通过图形化界面编辑数据清洗规则;步骤S12:通过图形化界面执行数据清洗。该数据清洗方法通过图形化界面从异构数据源中选定待清洗的数据源,能够实现对不同数据源的融合清洗,同时,用户通过在图形化界面上简单操作即可实现对数据的清洗,无需掌握数据清洗工具的开发和使用方法,降低了大数据应用服务的技术门槛,提升了用户对大数据服务的体验。
综上,传统数据清洗系统多采用脚本编写,配置文件或控件拖曳式方式,实现简单,但学习和维护成本都较高,灵活度偏低。
发明内容
针对现有技术的不足,本发明公开了一种基于自然语言的可视化数据清洗系统及方法,用于解决传统数据清洗系统多采用脚本编写,配置文件或控件拖曳式方式,实现简单,但学习和维护成本都较高,灵活度偏低的问题。
本发明通过以下技术方案予以实现:
第一方面,本发明公开了一种基于自然语言的可视化数据清洗方法,包括以下步骤:
S1系统初始化成功,通过服务器指定需要清洗的数据源相关连接信息;
S2数据源连接成功后,获取待清洗数据的前N条,并解析其字段类型和格式;
S3通过图形界面确认需要接入的数据字段,进行第一轮筛选,去除无用字段;
S4进入自然语言清洗配置,设置清洗模块,并选择触发数据同步和清洗任务;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京诚勤教育科技有限公司,未经南京诚勤教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011617367.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





