[发明专利]一种基于类SQL的数据文件分析处理方法、装置及电子设备在审
申请号: | 202110476827.X | 申请日: | 2021-04-30 |
公开(公告)号: | CN113190573A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 郑晓旭 | 申请(专利权)人: | 作业帮教育科技(北京)有限公司 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F40/151;G06F40/253 |
代理公司: | 北京中联智道知识产权代理事务所(普通合伙) 11963 | 代理人: | 熊蒙 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 sql 数据文件 分析 处理 方法 装置 电子设备 | ||
本发明涉及大数据分析技术领域,公开了一种基于类SQL的数据文件分析处理方法、装置及电子设备,所述基于类SQL的数据文件分析处理处理方法,包括:接收类SQL语句,对类SQL语句进行分析转换为多组语法算子;调用数据文件,各语法算子按照相互之间的逻辑关系针对数据文件进行运算分析处理。本发明的基于类SQL的数据文件分析处理方法,分析者只需要通过输入类SQL语句,类SQL语句被分析转换为多组语法算子,将待分析数据文件load到内存,多组语法算子进行分析计算最终输出结果;本发明的基于类SQL的数据文件分析处理方法采用了类SQL+内存计算的方式,完美的实现了低学习成本,减少有统一规则的文本数据分析统计成本,同时实现了即时即用的目标。
技术领域
本发明涉及大数据分析技术领域,具体的涉及一种基于类SQL的数据文件分析处理方法、装置及电子设备。
背景技术
随着互联网行业的高速发展,大数据分析也渐渐的普及,经常会出现大量的有固定schema数据文件分析的场景,schema(模式)又称架构,架构的定义是形成单个命名空间的数据库实体的集合。命名空间是一个集合,其中每个元素的名称都是唯一的。在这里,我们可以将架构看成一个存放数据库中对象的一个容器。固定schema的数据文件常见的比如日志文件、execl格式大文件,类似文件如果想要进行数据分析和统计,需要借助分析软件(execl,Hadoop,presto等)或脚本(bash中的awk,sort组合使用)。
现有技术的缺点:
一、分析软件execl和脚本bash脚本基于主机内存处理,可以达到分析和统计目的,但是execl的学习成本、bash命令的使用成本都非常之高。
二、Hadoop(分布式系统基础架构),presto(分布式SQL查询引擎)等属于大数据技术领域开源服务,但是安装成本和学习成本也很高,并且待分析数据需要解析后独立存储才能在此之上进行数据分析和统计,无法达到即开即用的目标。
有鉴于此,特提出本发明。
发明内容
为了解决以上问题,本发明提出了
一种基于类SQL的数据文件分析处理处理方法,包括:
接收类SQL语句,对类SQL语句进行分析转换为多组语法算子;
调用数据文件,各语法算子按照相互之间的逻辑关系针对数据文件进行运算分析处理。
作为本发明的可选实施方式,所述接收类SQL语句,对类SQL语句进行分析转换为多组语法算子包括:
基于接收的类SQL语句进行关键记号提取;
根据提取的关键记号,进行整体的类SQL语句切分,将每个关键记号对应的SQL子句切分成查询节点Query;
将切分的每组查询节点Query进行语法抽象,转换为语法算子。
作为本发明的可选实施方式,根据各查询节点Query对应的SQL语句组在类SQL语句中的相互关联关系确定语法算子之间的相互逻辑关系;
根据语法算子之间的相互逻辑关系将各语法算子进行连接,将整体的类SQL语句转换为由多组语法算子组合成的抽象语法树。
作为本发明的可选实施方式,所述调用本机存储的数据文件,控制各语法算子按照相互之间的逻辑关系针对数据文件进行运算分析处理包括:
根据抽象语法树的上下文结构连接注册的各组语法算子;
调用数据文本加载至运行内存中;
各组语法算子按照连接关系针对数据文件进行运算、分析以及统计计算。
作为本发明的可选实施方式,所述基于接收的类SQL语句进行关键记号提取包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于作业帮教育科技(北京)有限公司,未经作业帮教育科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110476827.X/2.html,转载请声明来源钻瓜专利网。