[发明专利]一种针对半结构化大数据的提取统计方法及系统有效

专利信息
申请号: 201710253204.X 申请日: 2017-04-18
公开(公告)号: CN107153679B 公开(公告)日: 2020-11-24
发明(设计)人: 方辉盛 申请(专利权)人: 北京思特奇信息技术股份有限公司
主分类号: G06F16/84 分类号: G06F16/84;G06F11/14
代理公司: 北京轻创知识产权代理有限公司 11212 代理人: 杨立
地址: 100086 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 结构 数据 提取 统计 方法 系统
【说明书】:

发明涉及一种针对半结构化大数据的提取统计方法及系统,属于大数据提取统计领域,解决了对半结构化大数据提取统计时过程比较繁琐和容易造成数据冗余的问题。本发明通过提供客户端让用户输入针对半结构化大数据进行提取和统计的操作语句,将操作语句同步到解析转换模块,解析转换模块对操作语句进行解析并将解析结果转换成配置规则;客户端调用应用引擎模块根据配置规则生成作业任务,将作业任务提交到底层框架;底层框架将作业任务拆分成多个子任务分配到集群上执行,并将执行后获取的结果数据返回给客户端展示给用户。用于提高对半结构化大数据的提取统计的可维护性和自动化可视化水平,减少数据冗余,简便可靠。

技术领域

本发明涉及大数据提取统计领域,尤其涉及一种针对半结构化大数据的提取统计方法及系统。

背景技术

常用的大数据分析组件,比如HIVE(一种数据仓库工具),对模型的要求是需要统计的字段必须是单独列。但现实需求中,数据在业务方面也是存在特定要求的,需要是半结构化的数据模型模式。既要满足业务需要又要满足统计需求,在同一个模型中并存就存在很大的冲突。因此一般分析组件是把业务数据单独加载到特定的数据仓库中去处理。这样实际上就导致了数据冗余。在同一个模型(半结构化)的基础下,也可以开发独立的提取统计工具进行处理。但整个过程繁琐,需要经过配置(不同业务场景)、执行和查看等流程,不能像sql查询那样执行命令后自动化处理,同时在执行过程和运行结果的可视化方面也存在缺陷。

发明内容

本发明所要解决的技术问题是针对现有技术的不足,提供一种针对半结构化大数据的提取统计方法及系统,目的在于针对半结构化的大数据操作提供一套完整工具,实现对半结构化大数据的提取统计命令操作和结果处理,可以使业务和分析场景使用统一模型,减少数据冗余,业务数据分析的运维和操作更简便可靠,提高可维护性和自动化可视化水平。

本发明解决上述技术问题的技术方案如下:

一种针对半结构化大数据的提取统计方法,包括以下步骤:

S1,客户端接收用户输入针对半结构化大数据进行提取和统计的操作语句,并将所述操作语句同步到解析转换模块进行处理;

S2,解析转换模块接收所述操作语句,对操作语句进行解析并将解析结果转换成配置规则;

S3,客户端调用应用引擎模块根据所述配置规则生成作业任务,将作业任务提交到底层框架进行处理;

S4,底层框架将作业任务拆分成多个子任务分配到集群上执行,并将执行后获取的结果数据返回给客户端进行展示。

本发明的有益效果是:借助客户端结合底层框架和集群,辅以处理流程,实现对半结构化大数据的提取统计命令操作和结果处理,从而提高可维护性和自动化可视化水平;针对半结构化的大数据操作提供一套完整方法,可以使业务和分析场景使用统一模型,减少数据冗余,业务数据分析的运维和操作更简便可靠。

在上述技术方案的基础上,本发明还可以做如下改进:

进一步,所述S2还包括:所述解析转换模块对操作语句进行解析并将解析结果转换成配置规则后,向客户端发送操作语句转换完成的消息;

所述S3还包括:客户端接收所述S2中解析转换模块发送的操作语句转换完成的消息,在接收到所述转换完成的消息后调用应用引擎模块,根据所述配置规则生成作业任务。

采用上述进一步方案的有益效果是:通过消息模式使客户端简单方便的判断操作语句转换成配置规则是否已经完成,节约系统资源,使客户端能在准确的时机调用应用引擎模块。

进一步,所述方法还包括步骤S5,S5包括:根据用户的选择将本次获取的结果数据备份到集群中。

采用上述进一步方案的有益效果是:备份结果数据使历史统计结果可重用,避免重复获取,提高了运行效率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京思特奇信息技术股份有限公司,未经北京思特奇信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710253204.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top