[发明专利]一种知识挖掘系统及方法在审
申请号: | 202011032121.6 | 申请日: | 2020-09-27 |
公开(公告)号: | CN112163017A | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 郑博洪;赖伟;陈军;李跃华;区永豪;虎清军;周志明;张艺;李相;张森玲;萧懿德 | 申请(专利权)人: | 广州汇智通信技术有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06N5/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杨小红 |
地址: | 510639 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 挖掘 系统 方法 | ||
本申请公开了一种知识挖掘系统及方法,系统包括:算子仓库用于为资源数据的建模提供算子工具,通过算子工具实现不同的逻辑功能,算子工具包括公共算子和自定义算子;建模平台用于根据算子工具和资源数据进行数据分析模型的构建,并将得到的数据分析模型封装成特定协议;云擎服务模块用于解析各种不同的特定协议,根据解析得到的特定协议内容调用底层大数据组件功能接口,并执行预置数据处理任务,得到目标数据,目标数据为屏蔽访问差异后的同构数据。本申请能够解决现有技术针对海量数据的联合分析缺乏有效的统一处理手段,导致跨领域数据的知识挖掘费时费力且效率低下的技术问题。
技术领域
本申请涉及数据挖掘技术领域,尤其涉及一种知识挖掘系统及方法。
背景技术
实际工作中,当我们面对海量数据时,很难将各种大数据框架进行融合。不同来源的数据,存储方式、查询方式都不相同,需要在不同的系统中使用不同的方式将其查询出来,再使用一些跨领域数据的变换才能做进一步的统一数据分析,这些操作一般针对都是有数据库知识及编程知识的人员,对无数据库知识和编程知识的人员则无法操作,除此之外,对大量非结构化数据进行分析,则需要专业人员操作,普通人员更是无法实现分析。
目前还没有统一的方法把各种海量异构数据进行融合,在对这些海量数据进行分析时,首先需要许多不同技术领域的专业人员互相配合,耗费人力;其次是没有统一的分析工具,需要从各种数据源把数据抽取出来,进行格式转换和复杂处理后,才能进行需求处理或者分析,效率低下。
发明内容
本申请提供了一种知识挖掘系统及方法,用于解决现有技术针对海量数据的联合分析缺乏有效的统一处理手段,导致跨领域数据的知识挖掘费时费力且效率低下的技术问题。
有鉴于此,本申请第一方面提供了一种知识挖掘系统,包括:算子仓库、建模平台和云擎服务模块;
所述算子仓库用于为资源数据的建模提供算子工具,通过所述算子工具实现不同的逻辑功能,所述算子工具包括公共算子和自定义算子;
所述建模平台用于根据所述算子工具和所述资源数据进行数据分析模型的构建,并将得到的所述数据分析模型封装成特定协议;
所述云擎服务模块用于解析各种不同的所述特定协议,根据解析得到的特定协议内容调用底层大数据组件功能接口,并执行预置数据处理任务,得到目标数据,所述目标数据为屏蔽访问差异后的同构数据。
可选的,所述建模平台具体用于:
对所述资源数据进行数据质量验证操作,所述数据质量验证操作包括:缺失验证、错误验证、精度验证、编码验证和元数据验证;
对验证后的资源数据进行建模准备相关操作,所述建模准备相关操作包括:源数据选择、数据子集抽取、属性管理、数据排序和数据集划分;
对所述算子工具进行组合以及参数设置,并根据所述建模准备相关操作后的资源数据进行数据分析模型的构建;
将所述数据分析模型封装为特定协议。
可选的,还包括:资源接入模块;
所述资源接入模块用于为异构资源提供不同的接口,对所述异构资源进行差异化处理,得到屏蔽差异的所述资源数据。
可选的,还包括:数据开发平台;
所述数据开发平台用于通过预置脚本、预置程序和调试环境对所述资源数据进行数据查询需求分析,得到新资源数据,通过所述新资源数据触发所述建模平台构建所述数据分析模型。
可选的,还包括:运维部署模块;
所述运维部署模块用于通过定时调度器定时对所述特定协议进行调度部署管理,并将所述特定协议发送至所述云擎服务模块,为用户提供终止、暂停和重启的服务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州汇智通信技术有限公司,未经广州汇智通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011032121.6/2.html,转载请声明来源钻瓜专利网。