[发明专利]聚集查询处理有效
| 申请号: | 200880015990.9 | 申请日: | 2008-05-29 |
| 公开(公告)号: | CN101681368A | 公开(公告)日: | 2010-03-24 |
| 发明(设计)人: | Y·西斯玛尼斯;B·赖因瓦尔德;P·J·哈斯;王玲;A·富克斯曼 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市金杜律师事务所 | 代理人: | 王茂华;黄耀钧 |
| 地址: | 美国*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 聚集 查询 处理 | ||
技术领域
本发明主要地涉及数据在线分析处理领域。具体而言,本发明涉及针对在数据库中表现有不同形式的动态发现的实体而无需为实体的属性明确解析正确值的聚集查询。
背景技术
现代企业情报日常大量利用从数据仓库中存储的数据库获得的客户和交易数据。通常可以通过向一个或者多个关联关系数据库提出分析查询来获得这样的企业情报。分析查询的执行可能需要如下数据处理,该数据处理涉及到大量表格化计算、时序分析和取回各种聚集数据。这些数据通常组织成列和行或者元组的表,其中许多表包括多个元组和多个列。这样的数据处理一般称为在线分析处理(OLAP)并且可以包括设计成访问和处理用于由企业据分析员使用的原始数据的软件。
企业情报因此需要集成诸多不同来源。来自不同来源的比如客户、供应商和产品这样的维度信息经常重叠并且在不同系统中表现有不同形式。即使企业内的运营系统通常也是孤立的而无数据完整性。将相异数据来源汇集在一起的企业购置或者合并和合伙以及内部应用数据与比如可以由零售商和联合数据馈送生成的外部数据一起越来越多的使用可能使该情形更为严重。
实体发现是确定多个实例是否实际上为相同实体(比如客户、供应商或者产品)的过程。这样的过程可以自动化并且通常通过检查和组合实体属性之间的相似性来工作。例如,考虑两个客户实例<约翰,辛普森,555-123-4568,圣何塞>和<约翰,辛普森,555-123-4567,旧金山>。名字、姓氏和电话之间的高度相似性可以 是两个客户为一个实体的标志。
实体解析是为实体的属性确定正确值的过程。对于上例,正确值可以是<约翰,辛普森,555-123-4567,旧金山>。通常,实体解析在数据仓库上静态地进行并且颇为耗时。然而,这样的方式很少正确。可能需要附加校正,因为更多实例变得可用致使静态解析过时。
相同实体在不同系统中表现有不同属性值这一现象称为“数据不一致”,而对应数据库称为“未解析的数据库”。如果未正确地对待数据不一致,则它可能对企业情报应用具有有害影响。对未解析的数据库直接进行聚集通常生成错误结果。为了说明现有技术,参考表1和表2,这些表提供了具有从两个不同运营系统集成的销售数据的销售活动例子。
表1
在表1中,客户ID标记C1、C3和C4标识的客户(即实例)可以源于第一运营系统,而客户ID标记C2和C5标识的客户可以源于第二运营系统。在表2中给出了与表1中列举的客户对应的交易数据:
表2
可以进行一个分析查询以例如确定对查询“按城市和州分组的销售总和是多少?”的答复。对于表1和表2中呈现的数据,未解析的聚集结果可以由表3给出:
表3
本领域技术人员可以理解特定客户在不同数据来源中在不同形式之下出现是很普遍的。实体发现过程可以用来提供比如图4中所示这样的实体映射:
表4
通过考察可见来自第一数据来源的客户C1很可能与来自第二数据来源的客户C2是相同的客户。因而,实体ID标记e1可以用来 指代客户C1和C2。类似地,来自第一数据来源的客户C4很可能与来自第二数据来源的客户C5是相同的客户。实体ID标记e3可以用来指代客户C4和C5。在现有技术中,通过为这样的实体选择正确维度数据,仓库管理员可以使用这一信息来人工解析数据。
表5
从这样的实体发现和解析过程获得的并且根据现有技术进行的表3和表4的解析聚集例子可以提供表6中给出的结果:
表6
可以理解如客户的实例的实际维度信息可能未知。虽然可以应用不同技术以便识别相同或者等效客户,但是将“正确”维度信息(例如地址、年龄、收入范围)分配给对应实体这一问题是动态任务。也就是说,随着更多数据变得可用,实体发现和解析持续改变,从而解析的聚集结果改变。因而,表6中的结果很可能不正确,因为产生该结果的常规过程无法考虑将不同实例的身份建立为相同客户这一步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200880015990.9/2.html,转载请声明来源钻瓜专利网。





