[发明专利]一种基于多维数据立方体的数据处理方法及电子装置在审
申请号: | 202010842774.4 | 申请日: | 2020-08-20 |
公开(公告)号: | CN114077652A | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 罗宁;王伟 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/951;G06F16/958 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 余功勋 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多维 数据 立方体 数据处理 方法 电子 装置 | ||
本发明提供一种基于多维数据立方体的数据处理方法及电子装置,包括:采集若干数据,获取各数据的字段名称,并对各数据进行语义化分析;依据字段名称与语义化分析结果,赋予各数据一或多个标签,并将各标签存入多维数据立方体的相应维度目录下;依据一查询分析指令,获取任务配置,并通过任务配置及维度目录下的标签,获取相应数据;根据不同类型数据的处理方法,对各相应数据进行自适应匹配,得到查询分析指令中设定形式的结果。本发明面向多种数据类型的构建数据立方体,提高信息资源查询效率、综合分析能力和数据直观展示效果。
技术领域
本发明属于软件技术领域,具体涉及一种基于多维数据立方体的数据处理方法及电子装置。
背景技术
政务信息资源在全社会资源中占有及其重要的位置,是一种具有重要价值的国家资源。对政务信息资源进行分析挖掘,可以最大限度发挥其价值。数据仓库是不可缺少的数据挖掘工具,其核心是支持联机分析处理(On-line Analytical Processing,OLAP)操作的数据立方体。数据立方体是由结构化数据组成多维矩阵,用户可以从多个角度对数据集进行探索、分析。数据立方体允许用户从不同的角度对海量数据进行分析,它能够保证分析的快速、一致和稳定。由于政务信息资源在格式、尺度、时态、语义上的多样化和复杂化对数据集成和组织带来了巨大挑战。研究人员分别针对结构化数据、文本数据、空间数据如何构建数据立方体进行了研究。结构化数据立方体构建基于关系数据模型,以多维逻辑方式组织,数据在各维度之间相互交叉,形成立体的数据视图,常采用星型和雪花型结构模型。在模型中,有三个实体:指标实体、维度实体、详细类别实体。文本数据立方体结合文本分析、挖掘、信息检索等技术,对文本数据进行处理,使得处理后的数据形式可以用来构建立方体,从而可以利用操作的便捷性、直观性的优点,来分析处理文本数据。文本数据立方体构建方法总体上可以被分为三种类别。一种是基于信息抽取技术,该技术通过预先定义的信息结构将文本转化为结构化的数据;第二种是基于信息检索技术,可以处理包含用户指定的关键字的查询;第三种是基于文本挖掘技术,该类文本需要对文本的语义信息进行挖掘,并使用关键字等信息对文本进行分类标注等操作。空间数据立方体是一种崭新的决策支持工具,它可以在电子地图上提供上卷、下钻、切片、切块等查询分析功能,是空间数据仓库不可缺少的数据挖掘工具。空间数据立方体的维和度量都具有空间信息,空间数据立方体包含3种类型的维:(1)非空间维,只包含非空间数据。(2)空间-非空间维,指初始数据是空间数据,但按一定的抽象层次概化后变成非空间的。(3)空间-空间维,指无论初始数据还是概化数据都是空间数据。这三类方法分别针对三种数据类型,而对多种数据类型的综合数据立方体构建方法未见有报道。
结构化数据立方体构建,需要事先设计好立方体的结构,按照严格的代数逻辑进行定义。在面向特定问题查询和计算时能满足要求,但涉及到定义之外问题时往往不能得到有效支持。文本数据立方体构建,主要依靠领域专家根据领域知识人工构建,成本较高,动态适应性较差,难以在实际中广泛使用。虽然有些方法中实现了动态构建文本集维度,但是这些方法主要依赖文本集的关键字和高频词的相似度,抽取的语义准确性还有待提高。同时,文本度量大多釆用信息检索技术,将文本转换为词项集合,使用高频词和词频作为度量,高频词和词频不能直观的显示文本的语义和主题,当存在多个主题时,高频词和词频难以区分不同的主题,这使得分析结果的准确性较低。空间数据立方体构建,由于空间数据量大,联机分析处理(OLAP)操作的响应延迟,空间数据立方体时间数据索引难度大。
同时,在政务信息资源应用中,信息资源整合并非将所有数据物理集中,更多是物理分散、逻辑聚合的方式进行集成,以支持解决大量政务问题。所以,如何克服上述的缺陷,构建支持多种数据类型的综合政务数据立方体,将有利于政务信息资源快速检索、整合分析及综合呈现,成为现有技术亟需解决的技术问题。
发明内容
针对上述问题,本发明提供了一种基于多维数据立方体的数据处理方法及电子装置,基于汇聚的各类数据,并利用地理网格划分、文本分词和本体构建等技术,解决解决大量数据的分析问题。
为达到上述目的,本发明的技术方案为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010842774.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置