[发明专利]用于处理信息的方法和装置在审
申请号: | 201810572350.3 | 申请日: | 2018-06-06 |
公开(公告)号: | CN108776692A | 公开(公告)日: | 2018-11-09 |
发明(设计)人: | 安金龙;张宁;刘业辉;张飞;王彦明 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息子 集合 信息集合 预设 方法和装置 标识数据 处理信息 关联存储 关联数据 获取目标 结果信息 目标标识 倾斜问题 数据相关 信息处理 响应 申请 | ||
本申请实施例公开了用于处理信息的方法和装置。该方法的一具体实施方式包括:获取目标标识数据;从预设的第一信息集合中,提取对应的标识数据与目标标识数据相关的第一信息,以及基于所提取的第一信息,生成第一信息子集合;从预设的至少一个第二信息集合中确定目标第二信息集合,以及确定目标第二信息集合包括的第二信息的数量;响应于确定数量大于预设的数量阈值,将目标第二信息集合划分成预设数量个第二信息子集合;对于预设数量个第二信息子集合中的第二信息子集合,将该第二信息子集合与第一信息子集合关联存储为结果信息集合。该实施方式提高了信息处理的灵活性,有助于解决处理大量关联数据造成的数据倾斜问题。
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于处理信息的方法和装置。
背景技术
随着互联网的飞速发展,数据呈现出爆发式的增长,海量数据的处理已经成为本领域技术人员研究的重点。数据关联是数据处理中经常进行的操作,包括内连接、左外连接、右外连接、全连接等。由于关联后的数据量巨大,会造成数据倾斜。数据倾斜指的是,并行处理的数据集中,某一部分的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。为解决数据倾斜,需要调整单个数据处理任务的数据量,例如将一个任务中处理的关联数据分散到多个任务中,或者对关联数据的标识添加随机前后缀,将数据打散,再进行关联。
发明内容
本申请实施例提出了用于处理信息的方法和装置。
第一方面,本申请实施例提供了一种用于处理信息的方法,该方法包括:获取目标标识数据;从预设的第一信息集合中,提取对应的标识数据与目标标识数据相关的第一信息,以及基于所提取的第一信息,生成第一信息子集合;从预设的至少一个第二信息集合中确定目标第二信息集合,以及确定目标第二信息集合包括的第二信息的数量,其中,目标第二信息集合中的第二信息对应的标识数据与目标标识数据相关;响应于确定数量大于预设的数量阈值,将目标第二信息集合划分成预设数量个第二信息子集合;对于预设数量个第二信息子集合中的第二信息子集合,将该第二信息子集合与第一信息子集合关联存储为结果信息集合。
在一些实施例中,在确定目标第二信息集合包括的第二信息的数量之后,方法还包括:响应于确定数量小于等于预设的数量阈值,将第一信息子集合与目标第二信息集合关联存储为结果信息集合。
在一些实施例中,在将该第二信息子集合与第一信息子集合关联存储为结果信息集合之后,方法还包括:将所关联存储的结果信息集合发送至预先分配的、用于处理所关联存储的结果信息集合的设备。
在一些实施例中,第二信息集合预先通过如下步骤得到:获取预设的第二原始信息集合;对于第二原始信息集合中的第二原始信息,确定该第二原始信息对应的标识数据;将所确定的标识数据相同的第二原始信息确定为第二信息,生成第二信息集合。
在一些实施例中,在将所确定的标识数据相同的第二原始信息确定为第二信息集合之后,方法还包括:基于所确定的第二信息集合所对应的标识数据,对所确定的至少一个第二信息集合进行排序,得到排序后的至少一个第二信息集合。
第二方面,本申请实施例提供了一种用于处理信息的装置,该装置包括:获取单元,被配置成获取目标标识数据;生成单元,被配置成从预设的第一信息集合中,提取对应的标识数据与目标标识数据相关的第一信息,以及基于所提取的第一信息,生成第一信息子集合;确定单元,被配置成从预设的至少一个第二信息集合中确定目标第二信息集合,以及确定目标第二信息集合包括的第二信息的数量,其中,目标第二信息集合中的第二信息对应的标识数据与目标标识数据相关;划分单元,被配置成响应于确定数量大于预设的数量阈值,将目标第二信息集合划分成预设数量个第二信息子集合;第一存储单元,被配置成对于预设数量个第二信息子集合中的第二信息子集合,将该第二信息子集合与第一信息子集合关联存储为结果信息集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810572350.3/2.html,转载请声明来源钻瓜专利网。