[发明专利]一种基于Spark的文件过滤方法及装置在审
申请号: | 201710796524.X | 申请日: | 2017-09-06 |
公开(公告)号: | CN109460669A | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 陈克凡 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 读取 过滤器 文件过滤 内存 过滤 规则创建 目标过滤 文件读取 用户需要 保证 | ||
1.一种基于Spark的文件过滤方法,其特征在于,包括:
根据目标过滤规则创建过滤器类;
在SparkSQL将parquet文件读取到内存之前,基于所述过滤器类对各个待读取的parquet文件进行过滤,得到目标parquet文件。
2.根据权利要求1所述的文件过滤方法,其特征在于,所述目标过滤规则为过滤错误文件的规则。
3.根据权利要求1所述的文件过滤方法,其特征在于,所述根据目标过滤规则创建过滤器类,包括:
对目标过滤规则进行解析,得到目标过滤文件属性和目标过滤范围;
根据所述目标过滤对象属性和所述目标过滤范围生成过滤器类。
4.根据权利要求1所述的文件过滤方法,其特征在于,所述目标过滤文件属性至少包括文件名称、文件大小、文件格式、文件存储数据和文件存储地址中的任意一项。
5.根据权利要求1所述的文件过滤方法,其特征在于,所述基于所述过滤器类对各个待读取的parquet文件进行过滤,得到目标parquet文件,包括:
依次判断每个待读取的parquet文件是否符合所述目标过滤规则;
将不符合所述目标过滤规则的所述待读取的parquet文件判定为目标parquet文件。
6.根据权利要求1所述的文件过滤方法,其特征在于,在得到目标parquet文件之后,所述方法还包括:
删除未通过所述过滤器类的parquet文件,或
将未通过所述过滤器类的parquet文件存储在预设存储空间。
7.根据权利要求1所述的文件过滤方法,其特征在于,在所述根据目标过滤规则创建过滤器类之前,所述方法还包括:
当接收到用户携带有过滤规则的更新指令时,删除当前过滤器类,并将所述过滤规则确定为所述目标过滤规则。
8.一种基于Spark的文件过滤装置,其特征在于,包括:
创建单元,用于根据目标过滤规则创建过滤器类;
过滤单元,用于在SparkSQL将parquet文件读取到内存之前,基于所述过滤器类对各个待读取的parquet文件进行过滤,得到目标parquet文件。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,
其中,在所述程序运行时控制所述存储介质所在的设备执行如权利要求1-7中任一项所述的基于Spark的文件过滤方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,
其中,所述程序运行时执行如权利要求1-7中任一项所述的基于Spark的文件过滤方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710796524.X/1.html,转载请声明来源钻瓜专利网。