[发明专利]数据关联处理方法、系统及电子设备有效
申请号: | 201610807903.X | 申请日: | 2016-09-07 |
公开(公告)号: | CN107798021B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 刘俊 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 袁礼君;姜怡 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 关联 处理 方法 系统 电子设备 | ||
本发明是关于一种数据关联处理方法、系统及电子设备。一种数据关联处理方法,包括:根据基础日志数据生成第一信息表,所述第一信息表中的一条记录由第一关键字段和第二关键字段唯一标识;在预设时间段内,将所述第一信息表的所述第一关键字段对应的所述第二关键字段进行自关联,生成第二信息表;将所述第二信息表中自关联后至少两个所述第二关键字段对应的所述第一关键字段的数量进行统计,生成第三信息表;根据所述第一信息表、所述第二信息表和所述第三信息表,生成第四信息表,所述第四信息表中包括表征至少两个所述第二关键字段之间的关联度指标。
技术领域
本发明涉及数据关联处理技术,尤其涉及一种数据关联处理方法、系统及电子设备。
背景技术
在大数据环境下,很多公司都会选择hadoop的大数据关联处理架构,hive作为hadoop上的数据查询语言也显得更加常用。可对于大数据量的探查,有的时候往往简单的查询逻辑并不能满足实际场景中的深层数据探查需求,比如数据挖掘中的一些复杂关系运算,如关联规则。在很多时候,使用者需要先通过hadoop把基础数据查询出来,然后导出或下载(down)到本地,再把这些基础数据二次导入到数据挖掘的相关软件中做进一步处理。
这种处理方式中数据与处理软件分离,手动处理工作太多,数据安全性低,数据导出消耗资源大,且无法充分利用hadoop并行算法的优势。
因此,需要一种新的数据关联处理方法、系统及电子设备。
在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明提供一种数据关联处理方法、系统及电子设备,用于至少部分或者全部解决上述现有技术中的问题。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本公开的一个方面,提供一种数据关联处理方法,包括:根据基础日志数据生成第一信息表,所述第一信息表中的一条记录由第一关键字段和第二关键字段唯一标识;在预设时间段内,将所述第一信息表的所述第一关键字段对应的所述第二关键字段进行自关联,生成第二信息表;将所述第二信息表中自关联后至少两个所述第二关键字段对应的所述第一关键字段的数量进行统计,生成第三信息表;根据所述第一信息表、所述第二信息表和所述第三信息表,生成第四信息表,所述第四信息表中包括表征至少两个所述第二关键字段之间的关联度指标。
在本公开的一种示例性实施例中,所述根据基础日志数据生成第一信息表包括:对所述基础日志数据进行清洗,剔除其中的风险数据和/或无效数据和/或重复数据;将经过清洗后的所述基础日志数据进行整合,生成所述第一信息表。
在本公开的一种示例性实施例中,所述第一关键字段包括用户编码,所述第二关键字段包括物品编码,一用户编码及一物品编码对应所述第一信息表中的一条记录;其中,所述用户编码与所述物品编码之间是一对一或者一对多的关系。
在本公开的一种示例性实施例中,将所述第一信息表的各个所述第一关键字段对应的所述第二关键字段进行自关联,生成第二信息表包括:将所述第一信息表进行自关联,获得用户编码对应的所述物品编码之间的至少两个关联物品。
在本公开的一种示例性实施例中,将所述第二信息表中自关联后至少两个所述第二关键字段对应的所述第一关键字段的数量进行统计,生成第三信息表包括:统计所述第二信息表中的所述至少两个关联物品的一共同购买用户数;排除所述至少两个关联物品中的相同物品和重复物品生成所述第三信息表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610807903.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种公交路线匹配判断方法及装置
- 下一篇:地图搜索下的订单选点方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置