[发明专利]一种基于多维数据立方体的数据处理方法及电子装置在审

专利信息
申请号: 202010842774.4 申请日: 2020-08-20
公开(公告)号: CN114077652A 公开(公告)日: 2022-02-22
发明(设计)人: 罗宁;王伟 申请(专利权)人: 中国科学院软件研究所
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F16/951;G06F16/958
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 余功勋
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 多维 数据 立方体 数据处理 方法 电子 装置
【说明书】:

发明提供一种基于多维数据立方体的数据处理方法及电子装置,包括:采集若干数据,获取各数据的字段名称,并对各数据进行语义化分析;依据字段名称与语义化分析结果,赋予各数据一或多个标签,并将各标签存入多维数据立方体的相应维度目录下;依据一查询分析指令,获取任务配置,并通过任务配置及维度目录下的标签,获取相应数据;根据不同类型数据的处理方法,对各相应数据进行自适应匹配,得到查询分析指令中设定形式的结果。本发明面向多种数据类型的构建数据立方体,提高信息资源查询效率、综合分析能力和数据直观展示效果。

技术领域

本发明属于软件技术领域,具体涉及一种基于多维数据立方体的数据处理方法及电子装置。

背景技术

政务信息资源在全社会资源中占有及其重要的位置,是一种具有重要价值的国家资源。对政务信息资源进行分析挖掘,可以最大限度发挥其价值。数据仓库是不可缺少的数据挖掘工具,其核心是支持联机分析处理(On-line Analytical Processing,OLAP)操作的数据立方体。数据立方体是由结构化数据组成多维矩阵,用户可以从多个角度对数据集进行探索、分析。数据立方体允许用户从不同的角度对海量数据进行分析,它能够保证分析的快速、一致和稳定。由于政务信息资源在格式、尺度、时态、语义上的多样化和复杂化对数据集成和组织带来了巨大挑战。研究人员分别针对结构化数据、文本数据、空间数据如何构建数据立方体进行了研究。结构化数据立方体构建基于关系数据模型,以多维逻辑方式组织,数据在各维度之间相互交叉,形成立体的数据视图,常采用星型和雪花型结构模型。在模型中,有三个实体:指标实体、维度实体、详细类别实体。文本数据立方体结合文本分析、挖掘、信息检索等技术,对文本数据进行处理,使得处理后的数据形式可以用来构建立方体,从而可以利用操作的便捷性、直观性的优点,来分析处理文本数据。文本数据立方体构建方法总体上可以被分为三种类别。一种是基于信息抽取技术,该技术通过预先定义的信息结构将文本转化为结构化的数据;第二种是基于信息检索技术,可以处理包含用户指定的关键字的查询;第三种是基于文本挖掘技术,该类文本需要对文本的语义信息进行挖掘,并使用关键字等信息对文本进行分类标注等操作。空间数据立方体是一种崭新的决策支持工具,它可以在电子地图上提供上卷、下钻、切片、切块等查询分析功能,是空间数据仓库不可缺少的数据挖掘工具。空间数据立方体的维和度量都具有空间信息,空间数据立方体包含3种类型的维:(1)非空间维,只包含非空间数据。(2)空间-非空间维,指初始数据是空间数据,但按一定的抽象层次概化后变成非空间的。(3)空间-空间维,指无论初始数据还是概化数据都是空间数据。这三类方法分别针对三种数据类型,而对多种数据类型的综合数据立方体构建方法未见有报道。

结构化数据立方体构建,需要事先设计好立方体的结构,按照严格的代数逻辑进行定义。在面向特定问题查询和计算时能满足要求,但涉及到定义之外问题时往往不能得到有效支持。文本数据立方体构建,主要依靠领域专家根据领域知识人工构建,成本较高,动态适应性较差,难以在实际中广泛使用。虽然有些方法中实现了动态构建文本集维度,但是这些方法主要依赖文本集的关键字和高频词的相似度,抽取的语义准确性还有待提高。同时,文本度量大多釆用信息检索技术,将文本转换为词项集合,使用高频词和词频作为度量,高频词和词频不能直观的显示文本的语义和主题,当存在多个主题时,高频词和词频难以区分不同的主题,这使得分析结果的准确性较低。空间数据立方体构建,由于空间数据量大,联机分析处理(OLAP)操作的响应延迟,空间数据立方体时间数据索引难度大。

同时,在政务信息资源应用中,信息资源整合并非将所有数据物理集中,更多是物理分散、逻辑聚合的方式进行集成,以支持解决大量政务问题。所以,如何克服上述的缺陷,构建支持多种数据类型的综合政务数据立方体,将有利于政务信息资源快速检索、整合分析及综合呈现,成为现有技术亟需解决的技术问题。

发明内容

针对上述问题,本发明提供了一种基于多维数据立方体的数据处理方法及电子装置,基于汇聚的各类数据,并利用地理网格划分、文本分词和本体构建等技术,解决解决大量数据的分析问题。

为达到上述目的,本发明的技术方案为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010842774.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top