[发明专利]基于流计算引擎的实时标签处理方法和装置在审
| 申请号: | 201810265932.7 | 申请日: | 2018-03-28 |
| 公开(公告)号: | CN108614862A | 公开(公告)日: | 2018-10-02 |
| 发明(设计)人: | 陈阳;刘婧;朱天;饶毓;张帅;雷君;徐小琳;王振宇 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F8/30 |
| 代理公司: | 北京中原华和知识产权代理有限责任公司 11019 | 代理人: | 丁慧玲;寿宁 |
| 地址: | 100029*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 标签处理 元数据 标签处理信息 数据输出信息 方法和装置 计算引擎 任务类型 任务配置 数据标签 标签处理规则 数据源信息 多源数据 简单配置 配置数据 任务流程 需求设定 大数据 配置的 源信息 构建 自动化 规范化 创建 | ||
本发明涉及一种基于流计算引擎的实时标签处理方法和装置,所述方法包括:步骤1、根据标签处理任务的需求设定标签处理任务类型;步骤2、根据所设定的标签处理任务类型,配置数据源信息、标签处理信息和数据输出信息;步骤3、根据所配置的数据源信息、标签处理信息和数据输出信息,生成标签处理任务配置元数据;步骤4、根据所述标签处理任务配置元数据,创建并执行所述标签处理任务。本发明通过简单配置自动化构建数据标签处理的任务流程。在标签处理任务中,根据元数据定义及标签处理规则定义进行标签处理,实现对多源数据进行标签处理,使数据标签处理过程规范化,提高了大数据实时标签处理方法的通用性和效率。
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种基于流计算引擎的实时标签处理方法和装置。
背景技术
随着互联网应用的快速发展,数据分析在业务决策中重要性日渐提升。数据分析业务通常需要对所要分析数据进行标签提取、过滤等预处理操作。但是,数据标签处理过程中数据来源众多、标签规则多样且网络环境复杂。传统的数据标签处理方法需要过多的人工干预,标签处理过程自动化程度低,处理方法复杂,数据分析工作的效率低,且无法适用于多种数据来源的标签处理,因此,通用性差、准确度低。
由此可知,如何实现对多源数据灵活进行标签提取,使数据标签处理过程规范化,提高数据标签处理方案的通用性成为亟待解决的技术问题。
发明内容
本发明所要解决的技术问题在于,提供一种基于流计算引擎的实时标签处理方法和装置,提高了大数据实时标签处理方法的通用性和效率。
根据本发明一方面,提供了一种基于流计算引擎的实时标签处理方法,包括:
步骤1、根据标签处理任务的需求设定标签处理任务类型;
步骤2、根据所设定的标签处理任务类型,配置数据源信息、标签处理信息和数据输出信息;
步骤3、根据所配置的数据源信息、标签处理信息和数据输出信息,生成标签处理任务配置元数据;
步骤4、根据所述标签处理任务配置元数据,创建并执行所述标签处理任务。
进一步的,所述步骤1中,所述标签处理类型包括键-值对提取、正则匹配和字段映射。
进一步的,所述步骤2中,配置数据源信息包括以下步骤:
步骤2.1.1、编辑数据源信息,并发送数据源添加请求;
步骤2.1.2、根据所述数据源添加请求判断对应的数据源信息是否为新添加的数据源信息,若是,则执行步骤2.3,否则执行步骤2.4;
步骤2.1.3、添加所述数据源信息;
步骤2.1.4、判断所述数据源信息是否需要更新,若需要,更新对应的数据源信息,否则,结束数据源信息添加流程。
进一步的,所述数据源信息包括:数据源存储类型、数据源位置或路径以及数据源访问账户信息和数据源描述信息中的一种或多种;
其中,所述数据源存储类型包括本地文件、分布式数据仓库H IVE、消息队列、网络文件传输FTP;
所述数据源描述信息包括数据源名称、数据字段名称、数据字段类型、数据文件分隔符,所述数据源名称包括文件名、数据表名、消息类型或队列名称。
进一步的,所述标签处理信息包括待处理数据源字段、结果标签字段名称、结果标签字段类型和标签处理规则列表中的一种或多种,其中,所述标签处理规则列表对应一个以上标签处理操作,所述标签处理规则列表通过对应每个标签处理操作,进行标签处理规则注册所得。
进一步的,所述标签处理规则注册述包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810265932.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种展示对象的方法及设备
- 下一篇:一种浮动数据帧帧头查找方法及系统





