[发明专利]一种数据表关联方法及装置有效
申请号: | 201210196712.6 | 申请日: | 2012-06-14 |
公开(公告)号: | CN103488657A | 公开(公告)日: | 2014-01-01 |
发明(设计)人: | 温嘉佳;何秀强;潘璐伽 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据表 关联 方法 装置 | ||
技术领域
本发明涉及网络信息处理领域,尤其涉及一种数据表关联方法及装置。
背景技术
当今我们处在大数据时代,据统计人类每天产生的数据量超过2.5quintillion(10^18)字节,在过去两年产生的数据量占人类收集数据总量的90%,而且随着移动宽带网络、sensor network(传感器网络)、RFID(radio frequency identification devices,无线射频识别)等技术的快速发展,人类产生数据的速度还在急速增长中。从海量数据中挖掘出有价值的信息,将数据转变为信息,进而发掘其中存在的商业价值成为技术热点,以帮助企业获得商业成功。进行数据挖掘的海量数据通常来自于多个数据源,某些有价值的信息只有通过关联分析隐藏在多个数据源间的关系才能获得。在电信网络中以信令分析为例,“信令风暴”是3G移动宽带网络面临的一个具有挑战性的问题。智能手机的快速普及是信令风暴产生的一个重要原因,表现为终端或业务心跳机制,引发连接请求次数和寻呼次数的大幅度增加,进而造成寻呼成功率和EV-DO掉话率劣化。3G网络中的信令分析希望通过将数据业务、终端类型等与信令消耗进行关联分析,了解不同数据业务、终端类型对信令消耗的不同影响,从而了解信令风暴产生的原因,从而给运营商提供解决或处理建议。
在现有的技术中以底层的分布式文件系统HDFS(Hadoop Distributed File System)通过Map-reduce(映射-线性相关)构架实现数据关联的分析。通过Map-reduce针对多数据源的关联,Hadoop的DataJoin(数据连接)机制实现如下:以A,B数据源(表)用于关联的x1,y1作为映射的键值输出,针对具有相同键值的A,B表,进行笛卡尔积,从中选择满足条件的结果作为关联分析结果;从所有笛卡尔积的关联组合中,选择符合最优条件的记录。如果假设A表和B表相同键值的表项各自有n,m个,则关联阶段的算法复杂度为O(n*m)。如果A表和B表相同key值的表项过多,则计算复杂度相当高,因此极大地影响了关联分析的效率。
发明内容
本发明的实施例提供一种数据表关联方法及装置,能够有效提高数据关联分析的执行效率,实现数据关联分析的准实时性。
为达到上述目的,本发明的实施例采用如下技术方案:
一方面,提供一种数据表关联方法,包括:
读取分布式计算系统文件,根据数值关系分析中的等值条件以所述系统文件中任意两个数据源各自的属性值建立满足所述等值条件的键值对,其中所述数据源中每条数据记录与所述数据源各自的属性值之间具有固定函数关系;
将建立所述键值对的任意两个数据源中的数据记录分别按照各自满足的固定函数关系提供的顺序进行遍历,在所述两个数据源中找到各自固定函数关系之间满足最优条件的数据记录。
一方面,提供一种数据表关联的装置,包括:
至少一个映射器,用于读取分布式计算系统文件,根据数值关系分析中的等值条件以所述系统文件中任意两个数据源各自的属性值建立满足所述等值条件的键值对,其中所述数据源中每条数据记录与所述数据源各自的属性值之间具有固定函数关系;
至少一个遍历器,用于将建立所述键值对的任意两个数据源中的数据记录分别按照各自满足的固定函数关系提供的顺序进行遍历,在所述两个数据源中找到各自固定函数关系之间满足最优条件的数据记录。
本发明的实施例提供一种数据表关联方法及装置,通过采用按顺序遍历的方法实现数据的关联,能够有效提高数据关联分析的执行效率,实现数据关联分析的准实时性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据表关联的方法流程示意图;
图2为本发明实施例提供的一种满足性条件搜索方法示意图;
图3为本发明另一实施例提供的一种数据表关联的方法流程示意图;
图4为本发明实施例提供的一种数据表关联装置示意图;
图5为本发明另一实施例提供的一种数据表关联装置示意图;
图6为本发明又一实施例提供的一种数据表关联装置示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210196712.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防静电陶瓷材料及其制备方法
- 下一篇:一种低糖草莓果脯