[发明专利]一种数据过滤引擎及系统和过滤方法在审
申请号: | 201910385548.5 | 申请日: | 2019-05-09 |
公开(公告)号: | CN110287174A | 公开(公告)日: | 2019-09-27 |
发明(设计)人: | 杨超 | 申请(专利权)人: | 北京善义善美科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 北京天驰君泰律师事务所 11592 | 代理人: | 孟锐 |
地址: | 100102 北京市朝阳区广顺北大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 过滤规则 数据过滤 引擎 原始数据 代码树 过滤 规则解释 规则制定 过滤模块 过滤条件 数据清洗 调用 配置 测试 开发 输出 转化 | ||
本发明涉及一种数据过滤引擎及系统和过滤方法,属于数据清洗技术领域。所述数据过滤引擎包括:规则解释器,经配置用于将过滤规则转化为对应的代码树,所述代码树至少包括一个UDF;以及过滤模块,经配置用于调用所述过滤规则中的UDF处理原始数据,根据每一条过滤规则中最终UDF的输出值确定所述原始数据是否符合所述过滤规则。本发明不但降低了规则制定者与开发人员的沟通成本,简化了开发与测试的流程,并且可以通过修改规则来改变过滤条件,适应性强、操作简便。
技术领域
本发明涉及数据清洗技术领域,特别地涉及一种数据过滤引擎及系统和过滤方法。
背景技术
在如今的互联网、大数据时代,数据清洗是一件越来越重要的事。对于一个企业或一个平台而言,每天、甚至于每秒都会产生大量的内部数据和/或外部数据。无用数据不但会占用宝贵的空间,也会干扰数据分析,造成分析结果误差大、可信度低的后果。即使是有用数据,相同类型数据的格式也可能不同,需要进行归一化处理,或者是对原始数据进行数据的补全或删除,而后才能继续使用。
过滤掉无用数据是数据清洗的一个必要且重要的处理手段。通常的过滤手段是根据需要设计不同的筛选机制,通过设置筛选、过滤规则分辩出无用数据。在实际实现时,所述筛选、过滤规则的设计和将所述过滤规则应用到数据清洗中通常由不同的部门或不同的人员来完成。例如,在一个车辆交易平台,按照规定,只有符合平台要求的车辆信息才可以公布在平台上。通常来说,平台产品经理制定过滤规则,用于确定提交到平台的哪些信息可以在平台公布,哪些信息不能在平台公布。平台开发人员在所述平台实施所述过滤规则,将符合过滤规则的信息过滤掉,从而阻止该信息公布在平台上。由于背景不同,为了能够准确地实施产品经理制定的过滤规则,开发人员需要与产品经理反复沟通和确认,即使一个很小部分的改动,也需要产品经理的确认,这种模式不但增加了双方的沟通成本、消耗了双方大量的精力,而且延长了开发与测试过程。
发明内容
针对现有技术中存在的技术问题,本发明提出了一种数据过滤引擎及系统和过滤方法,用于降低沟通成本,简化开发与测试的流程。
为了解决上述技术问题,本发明提供了一种数据过滤引擎,包括:规则解释器,经配置用于将过滤规则转化为对应的代码树,所述代码树至少包括一个UDF(User DefinedFunction自定义函数);以及过滤模块,经配置用于调用所述过滤规则中的UDF处理原始数据,根据每一条过滤规则中最终UDF的输出值确定所述原始数据是否符合所述过滤规则。
优选地,所述规则解释器包括:规则分析单元,经配置用于从过滤规则中识别出符合语法规则的函数关键字;以及函数匹配单元,经配置用于通过匹配所述函数关键字和已注册的UDF,确定与所述过滤规则对应的UDF;以及代码树生成单元,经配置用于根据已确定的UDF生成过滤规则的代码树。
优选地,所述代码树的结构包括UDF名称,类型和参数列表,其中,类型和参数列表可以为空。
优选地,所述的数据过滤引擎还包括:规则加载模块,经配置用于根据规则加载参数加载过滤规则,并将所述过滤规则传递给所述规则解释器。
优选地,所述的数据过滤引擎还包括:配置加载模块,经配置用于加载所述规则加载参数、将过滤规则转化为对应的代码树时使用的参数和过滤模块使用的过滤参数。
优选地,所述的数据过滤引擎还包括:UDF加载模块,经配置用于加载过滤规则代码树中的UDF。
本发明提供了一种数据过滤系统,包括:系统配置模块,经配置用于配置所述规则加载参数、将过滤规则转化为对应的代码树时使用的参数和过滤参数;UDF模块,经配置用于获取并注册一个以上的UDF;以及数据过滤引擎,经配置用于将根据规则加载参数加载的过滤规则转化为代码树,根据过滤参数读取原始数据,调用代码树中的UDF处理所述原始数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京善义善美科技有限公司,未经北京善义善美科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910385548.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:自动生成有意义的用户段
- 下一篇:一种资源环境承载能力的大数据智能测定系统