[发明专利]数据关联处理方法、系统及电子设备有效

专利信息
申请号: 201610807903.X 申请日: 2016-09-07
公开(公告)号: CN107798021B 公开(公告)日: 2021-04-30
发明(设计)人: 刘俊 申请(专利权)人: 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号: G06F16/2458 分类号: G06F16/2458
代理公司: 北京律智知识产权代理有限公司 11438 代理人: 袁礼君;姜怡
地址: 100195 北京市海淀区杏石口路6*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 关联 处理 方法 系统 电子设备
【说明书】:

发明是关于一种数据关联处理方法、系统及电子设备。一种数据关联处理方法,包括:根据基础日志数据生成第一信息表,所述第一信息表中的一条记录由第一关键字段和第二关键字段唯一标识;在预设时间段内,将所述第一信息表的所述第一关键字段对应的所述第二关键字段进行自关联,生成第二信息表;将所述第二信息表中自关联后至少两个所述第二关键字段对应的所述第一关键字段的数量进行统计,生成第三信息表;根据所述第一信息表、所述第二信息表和所述第三信息表,生成第四信息表,所述第四信息表中包括表征至少两个所述第二关键字段之间的关联度指标。

技术领域

本发明涉及数据关联处理技术,尤其涉及一种数据关联处理方法、系统及电子设备。

背景技术

在大数据环境下,很多公司都会选择hadoop的大数据关联处理架构,hive作为hadoop上的数据查询语言也显得更加常用。可对于大数据量的探查,有的时候往往简单的查询逻辑并不能满足实际场景中的深层数据探查需求,比如数据挖掘中的一些复杂关系运算,如关联规则。在很多时候,使用者需要先通过hadoop把基础数据查询出来,然后导出或下载(down)到本地,再把这些基础数据二次导入到数据挖掘的相关软件中做进一步处理。

这种处理方式中数据与处理软件分离,手动处理工作太多,数据安全性低,数据导出消耗资源大,且无法充分利用hadoop并行算法的优势。

因此,需要一种新的数据关联处理方法、系统及电子设备。

在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明提供一种数据关联处理方法、系统及电子设备,用于至少部分或者全部解决上述现有技术中的问题。

本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。

根据本公开的一个方面,提供一种数据关联处理方法,包括:根据基础日志数据生成第一信息表,所述第一信息表中的一条记录由第一关键字段和第二关键字段唯一标识;在预设时间段内,将所述第一信息表的所述第一关键字段对应的所述第二关键字段进行自关联,生成第二信息表;将所述第二信息表中自关联后至少两个所述第二关键字段对应的所述第一关键字段的数量进行统计,生成第三信息表;根据所述第一信息表、所述第二信息表和所述第三信息表,生成第四信息表,所述第四信息表中包括表征至少两个所述第二关键字段之间的关联度指标。

在本公开的一种示例性实施例中,所述根据基础日志数据生成第一信息表包括:对所述基础日志数据进行清洗,剔除其中的风险数据和/或无效数据和/或重复数据;将经过清洗后的所述基础日志数据进行整合,生成所述第一信息表。

在本公开的一种示例性实施例中,所述第一关键字段包括用户编码,所述第二关键字段包括物品编码,一用户编码及一物品编码对应所述第一信息表中的一条记录;其中,所述用户编码与所述物品编码之间是一对一或者一对多的关系。

在本公开的一种示例性实施例中,将所述第一信息表的各个所述第一关键字段对应的所述第二关键字段进行自关联,生成第二信息表包括:将所述第一信息表进行自关联,获得用户编码对应的所述物品编码之间的至少两个关联物品。

在本公开的一种示例性实施例中,将所述第二信息表中自关联后至少两个所述第二关键字段对应的所述第一关键字段的数量进行统计,生成第三信息表包括:统计所述第二信息表中的所述至少两个关联物品的一共同购买用户数;排除所述至少两个关联物品中的相同物品和重复物品生成所述第三信息表。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610807903.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top