[发明专利]一种针对半结构化大数据的提取统计方法及系统有效
申请号: | 201710253204.X | 申请日: | 2017-04-18 |
公开(公告)号: | CN107153679B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 方辉盛 | 申请(专利权)人: | 北京思特奇信息技术股份有限公司 |
主分类号: | G06F16/84 | 分类号: | G06F16/84;G06F11/14 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立 |
地址: | 100086 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 结构 数据 提取 统计 方法 系统 | ||
本发明涉及一种针对半结构化大数据的提取统计方法及系统,属于大数据提取统计领域,解决了对半结构化大数据提取统计时过程比较繁琐和容易造成数据冗余的问题。本发明通过提供客户端让用户输入针对半结构化大数据进行提取和统计的操作语句,将操作语句同步到解析转换模块,解析转换模块对操作语句进行解析并将解析结果转换成配置规则;客户端调用应用引擎模块根据配置规则生成作业任务,将作业任务提交到底层框架;底层框架将作业任务拆分成多个子任务分配到集群上执行,并将执行后获取的结果数据返回给客户端展示给用户。用于提高对半结构化大数据的提取统计的可维护性和自动化可视化水平,减少数据冗余,简便可靠。
技术领域
本发明涉及大数据提取统计领域,尤其涉及一种针对半结构化大数据的提取统计方法及系统。
背景技术
常用的大数据分析组件,比如HIVE(一种数据仓库工具),对模型的要求是需要统计的字段必须是单独列。但现实需求中,数据在业务方面也是存在特定要求的,需要是半结构化的数据模型模式。既要满足业务需要又要满足统计需求,在同一个模型中并存就存在很大的冲突。因此一般分析组件是把业务数据单独加载到特定的数据仓库中去处理。这样实际上就导致了数据冗余。在同一个模型(半结构化)的基础下,也可以开发独立的提取统计工具进行处理。但整个过程繁琐,需要经过配置(不同业务场景)、执行和查看等流程,不能像sql查询那样执行命令后自动化处理,同时在执行过程和运行结果的可视化方面也存在缺陷。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种针对半结构化大数据的提取统计方法及系统,目的在于针对半结构化的大数据操作提供一套完整工具,实现对半结构化大数据的提取统计命令操作和结果处理,可以使业务和分析场景使用统一模型,减少数据冗余,业务数据分析的运维和操作更简便可靠,提高可维护性和自动化可视化水平。
本发明解决上述技术问题的技术方案如下:
一种针对半结构化大数据的提取统计方法,包括以下步骤:
S1,客户端接收用户输入针对半结构化大数据进行提取和统计的操作语句,并将所述操作语句同步到解析转换模块进行处理;
S2,解析转换模块接收所述操作语句,对操作语句进行解析并将解析结果转换成配置规则;
S3,客户端调用应用引擎模块根据所述配置规则生成作业任务,将作业任务提交到底层框架进行处理;
S4,底层框架将作业任务拆分成多个子任务分配到集群上执行,并将执行后获取的结果数据返回给客户端进行展示。
本发明的有益效果是:借助客户端结合底层框架和集群,辅以处理流程,实现对半结构化大数据的提取统计命令操作和结果处理,从而提高可维护性和自动化可视化水平;针对半结构化的大数据操作提供一套完整方法,可以使业务和分析场景使用统一模型,减少数据冗余,业务数据分析的运维和操作更简便可靠。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步,所述S2还包括:所述解析转换模块对操作语句进行解析并将解析结果转换成配置规则后,向客户端发送操作语句转换完成的消息;
所述S3还包括:客户端接收所述S2中解析转换模块发送的操作语句转换完成的消息,在接收到所述转换完成的消息后调用应用引擎模块,根据所述配置规则生成作业任务。
采用上述进一步方案的有益效果是:通过消息模式使客户端简单方便的判断操作语句转换成配置规则是否已经完成,节约系统资源,使客户端能在准确的时机调用应用引擎模块。
进一步,所述方法还包括步骤S5,S5包括:根据用户的选择将本次获取的结果数据备份到集群中。
采用上述进一步方案的有益效果是:备份结果数据使历史统计结果可重用,避免重复获取,提高了运行效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京思特奇信息技术股份有限公司,未经北京思特奇信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710253204.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种查找价值用户的数据处理方法和系统
- 下一篇:一种机房空调机组控制系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置