[发明专利]一种结构化数据搜索方法在审
申请号: | 201410314941.2 | 申请日: | 2014-07-02 |
公开(公告)号: | CN104123346A | 公开(公告)日: | 2014-10-29 |
发明(设计)人: | 苏凯;吴广财;桂媛;陈非 | 申请(专利权)人: | 广东电网公司信息中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州知友专利商标代理有限公司 44104 | 代理人: | 周克佑 |
地址: | 510080 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结构 数据 搜索 方法 | ||
技术领域
本发明涉及数据搜索技术领域,具体的说,是涉及一种结构化数据搜索模型的构造方法。
背景技术
在大数据时代企业日常生产运营过程中积累了海量的业务数据信息,但是这些有价值的信息常常分散在企业的各个角落,如何更好的体现数据价值,让用户从海量数据中快速搜索出自己想要的业务数据内容,而不是仅仅提供固定的定制化分析报表,是企业在商务智能分析中面临的一个重要挑战。
传统的商务智能产品,都是基于数据仓库的基础之上,通过语义的过程,将技术语言转化为易于理解的业务语言,再通过业务需求定制开发不同的报表和仪表盘,实现按需定制开发的功能。由于业务需求的变化越来越快,无法实现快速定制,快速响应用户需求,需要对数据结构模型进行优化,以提供一种类似于搜索引擎的结构化数据搜索服务方法,为用户提供快速的数据分析服务响应。所谓结构化数据是指即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。这种方式需要能够超越传统BI的数据交付模式,提供了更好的用户体验。
发明内容
本发明的目的在于提供一种结构化数据搜索方法,本方法能够实现通过自然语言查询,来搜索海量的结构化数据信息。
本发明通过如下技术方案实现上述发明目的:
一种结构化数据搜索方法,包括以下步骤:
步骤A:对数据仓库的数据进行技术标准化。
对已有数据仓库中的数据进行标准化,所述数据标准化过程就是通过SQL语言进行数据扩展,即保持原有数据仓库的表结构和数据不变,利用SQL语言生成新的表结构和数据,主要包含三个步骤:
a1.将已有数据仓库标准化为事实表和维度表的模式,具体过程为:已有数据仓库有源数据表D包含A1、A2、…An,B1、B2、…Bm,其中A1-An为枚举型的文本值或数值,B1-Bm为数字型的度量值,则将源数据表D拆分为一个事实表Fmn和n个维度表(DA1-DAn)组成,事实表Fmn的构成是A1ID、A2ID、…AnID,B1、B2、…Bm,其中A1ID、A2ID、…AnID分别和n个维度表进行关联,每个维度表Ai的构成是AiID、AiName。所谓AiID是指维度Ai的ID,即唯一的数字标示;AiName是指维度表Ai的Name,即名称,如:有性别维度,存在两个维度值,则有性别维度ID{0,1},对应的性别名称{‘男’,‘女’}。所谓性别维度表对应Ai,性别名称对应AiName,{0,1}对应的是ID。
a2.将已有数据仓库标准化为星型模型,如:在雪花形模型中,事实表Fmn中的客户ID关联客户维度表Ai中的客户主键AiID,而客户维度表中又存在客户分类ID关联到客户分类维度表D1中的客户分类ID,则将客户维度表中的客户分类ID放到事实表Fmn中和客户分类维度表D1的客户分类ID直接进行关联。所述客户分类维度表是存放客户分类信息的维度表,也是对数据仓库中维度表的细分。
a3.在已有数据仓库,对于存在笛卡儿乘积的维度表都转化为单一维度的维度表,如:笛卡儿乘积的维度表P是由A、B、C3个维度组成,则将维度表P拆分为3个维度表分别对应维度表A、维度表B、维度表C,同时将事实表中和维度表P关联的维度ID拆分为三个维度ID,分别关联A、B、C三个维度表中的维度ID。
经过步骤A,得到进行技术标准化后扩展的所有事实表和维度表,即技术标准化后的数据模型。
步骤B:建立搜索模型的配置参数表。
基于步骤A得到的技术标准化后的数据模型进行参数表的配置,得到配置参数表。配置参数表由度量配置参数表、维度配置参数表和维度值配置参数表3张表构成。
其中度量配置参数表包括的数据项为度量名称、所属表名、度量对应字段名和数据聚合特征。数据聚合特征是指该度量值的结果聚合方式,具体包括6类特 征:求和、最大值、最小值、平均值、计数、无。
维度配置参数表的数据项主要包括维度名称、所属表名、维度字段名、维度表主键和优先级别,其中优先级别是一个排列序号,0最高,数字越大优先级越小。
维度配置参数表包括维度值、所属表名、维度字段名、维度表主键。
步骤C:搜索模型的生成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网公司信息中心,未经广东电网公司信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410314941.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:光电阴极制备工艺
- 下一篇:一种有利于减少绕线成本的绕线机构
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置