[发明专利]一种基于Spark的文件过滤方法及装置在审

申请号：	201710796524.X	申请日：	2017-09-06
公开（公告）号：	CN109460669A	公开（公告）日：	2019-03-12
发明（设计）人：	陈克凡	申请（专利权）人：	北京国双科技有限公司
主分类号：	G06F21/62	分类号：	G06F21/62
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王宝筠
地址：	100086 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	读取过滤器文件过滤内存过滤规则创建目标过滤文件读取用户需要保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于Spark的文件过滤方法，根据目标过滤规则创建过滤器类，在Spark SQL将parquet文件读取到内存之前，基于所述过滤器类对各个待读取的parquet文件进行过滤，得到目标parquet文件，保证所有读取到内存中的parquet文件均为用户需要的parquet文件，不需要再有用户对已读取到内存的parquet文件进行特殊处理，即可保证得到正确的结果。同时，对于较为复杂的过滤需求，也可以通过编写更加复杂的过滤器类来实现，提高了文件过滤的灵活性。

技术领域

本发明涉及数据处理技术领域，更具体的，涉及一种基于Spark的文件过滤方法及装置。

背景技术

Spark是专为大规模数据处理而设计的快速通用的计算引擎，Spark SQL是Spark的一个组件，用于结构化数据的计算，Parquet是面向分析型业务的列式存储格式。

当使用Spark Sql读取数据库中表中的数据时，如果构成表的parquet文件中包含了不合法的parquet文件，则Spark Sql在读取parquet文件时会报错，程序无法继续运行下去，这时需要人工查看日志文件，并手工删除不合法的parquet文件，文件读取效率低。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于Spark的文件过滤方法及装置。

具体技术方案如下：

一种基于Spark的文件过滤方法，包括：

根据目标过滤规则创建过滤器类；

在Spark SQL将parquet文件读取到内存之前，基于所述过滤器类对各个待读取的parquet文件进行过滤，得到目标parquet文件。

优选的，所述目标过滤规则为过滤错误文件的规则。