[发明专利]一种结构化数据搜索方法在审

专利信息
申请号: 201410314941.2 申请日: 2014-07-02
公开(公告)号: CN104123346A 公开(公告)日: 2014-10-29
发明(设计)人: 苏凯;吴广财;桂媛;陈非 申请(专利权)人: 广东电网公司信息中心
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广州知友专利商标代理有限公司 44104 代理人: 周克佑
地址: 510080 广东省广州*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 结构 数据 搜索 方法
【说明书】:

技术领域

发明涉及数据搜索技术领域,具体的说,是涉及一种结构化数据搜索模型的构造方法。 

背景技术

在大数据时代企业日常生产运营过程中积累了海量的业务数据信息,但是这些有价值的信息常常分散在企业的各个角落,如何更好的体现数据价值,让用户从海量数据中快速搜索出自己想要的业务数据内容,而不是仅仅提供固定的定制化分析报表,是企业在商务智能分析中面临的一个重要挑战。 

传统的商务智能产品,都是基于数据仓库的基础之上,通过语义的过程,将技术语言转化为易于理解的业务语言,再通过业务需求定制开发不同的报表和仪表盘,实现按需定制开发的功能。由于业务需求的变化越来越快,无法实现快速定制,快速响应用户需求,需要对数据结构模型进行优化,以提供一种类似于搜索引擎的结构化数据搜索服务方法,为用户提供快速的数据分析服务响应。所谓结构化数据是指即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。这种方式需要能够超越传统BI的数据交付模式,提供了更好的用户体验。 

发明内容

本发明的目的在于提供一种结构化数据搜索方法,本方法能够实现通过自然语言查询,来搜索海量的结构化数据信息。 

本发明通过如下技术方案实现上述发明目的: 

一种结构化数据搜索方法,包括以下步骤: 

步骤A:对数据仓库的数据进行技术标准化。 

对已有数据仓库中的数据进行标准化,所述数据标准化过程就是通过SQL语言进行数据扩展,即保持原有数据仓库的表结构和数据不变,利用SQL语言生成新的表结构和数据,主要包含三个步骤: 

a1.将已有数据仓库标准化为事实表和维度表的模式,具体过程为:已有数据仓库有源数据表D包含A1、A2、…An,B1、B2、…Bm,其中A1-An为枚举型的文本值或数值,B1-Bm为数字型的度量值,则将源数据表D拆分为一个事实表Fmn和n个维度表(DA1-DAn)组成,事实表Fmn的构成是A1ID、A2ID、…AnID,B1、B2、…Bm,其中A1ID、A2ID、…AnID分别和n个维度表进行关联,每个维度表Ai的构成是AiID、AiName。所谓AiID是指维度Ai的ID,即唯一的数字标示;AiName是指维度表Ai的Name,即名称,如:有性别维度,存在两个维度值,则有性别维度ID{0,1},对应的性别名称{‘男’,‘女’}。所谓性别维度表对应Ai,性别名称对应AiName,{0,1}对应的是ID。 

a2.将已有数据仓库标准化为星型模型,如:在雪花形模型中,事实表Fmn中的客户ID关联客户维度表Ai中的客户主键AiID,而客户维度表中又存在客户分类ID关联到客户分类维度表D1中的客户分类ID,则将客户维度表中的客户分类ID放到事实表Fmn中和客户分类维度表D1的客户分类ID直接进行关联。所述客户分类维度表是存放客户分类信息的维度表,也是对数据仓库中维度表的细分。 

a3.在已有数据仓库,对于存在笛卡儿乘积的维度表都转化为单一维度的维度表,如:笛卡儿乘积的维度表P是由A、B、C3个维度组成,则将维度表P拆分为3个维度表分别对应维度表A、维度表B、维度表C,同时将事实表中和维度表P关联的维度ID拆分为三个维度ID,分别关联A、B、C三个维度表中的维度ID。 

经过步骤A,得到进行技术标准化后扩展的所有事实表和维度表,即技术标准化后的数据模型。 

步骤B:建立搜索模型的配置参数表。 

基于步骤A得到的技术标准化后的数据模型进行参数表的配置,得到配置参数表。配置参数表由度量配置参数表、维度配置参数表和维度值配置参数表3张表构成。 

其中度量配置参数表包括的数据项为度量名称、所属表名、度量对应字段名和数据聚合特征。数据聚合特征是指该度量值的结果聚合方式,具体包括6类特 征:求和、最大值、最小值、平均值、计数、无。 

维度配置参数表的数据项主要包括维度名称、所属表名、维度字段名、维度表主键和优先级别,其中优先级别是一个排列序号,0最高,数字越大优先级越小。 

维度配置参数表包括维度值、所属表名、维度字段名、维度表主键。 

步骤C:搜索模型的生成。 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网公司信息中心,未经广东电网公司信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410314941.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top