[发明专利]人员关系分析方法、装置、电子设备及存储介质在审

申请号：	201911268593.9	申请日：	2019-12-11
公开（公告）号：	CN110888888A	公开（公告）日：	2020-03-17
发明（设计）人：	周鹏;许宏波;蒋娟;陈士聪;齐攀;范根长;梁豪辉	申请（专利权）人：	北京明略软件系统有限公司
主分类号：	G06F16/22	分类号：	G06F16/22;G06F16/28
代理公司：	北京超成律师事务所 11646	代理人：	许书音
地址：	100000 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	人员关系分析方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种人员关系分析方法、装置、电子设备及存储介质。基于Spark计算引擎，获取待分析的数据集，该待分析的数据集包含多个待分析人员的出行数据；调用所述Spark计算引擎对该待分析的数据集进行计算，获得所述多个待分析人员之间的人际关系数据。如此，实现根据多个人员的出行数据分析挖掘出多个人员之间的隐性关系。

技术领域

本申请涉及数据处理领域，具体而言，涉及一种人员关系分析方法、装置、电子设备及存储介质。

背景技术

随着大数据技术的发展，知识图谱广泛应用于各个行业中，而图谱的构建则成为各企业应用知识图谱的关键环节。

图谱的构建通常以实体与实体之间的关系或者实体的行为事件为主体。目前，对于图谱关系的提取，大多数都是通过数据清洗融合，从数据源中抽取显性关系，如父子关系、人车关系等等。但显性关系往往并不能满足行业方面的业务需求，在很多的业务场景中，需要在海量数据中构建图谱的隐性关系，如同住同行关系等。

发明内容

为了克服现有技术中的至少一个不足，本申请实施例的目的之一在于提供一种人员关系分析方法，应用于配置有Spark计算引擎的分布式计算系统，所述方法包括：

获取待分析的数据集，所述待分析的数据集包含多个待分析人员的出行数据；

调用所述Spark计算引擎对所述待分析的数据集进行计算，获得所述多个待分析人员之间的人际关系数据。

可选地，所述分布式计算系统包括主计算节点和多个从计算节点；所述调用所述Spark计算引擎对所述待分析的数据集进行计算，获得所述多个待分析人员之间的人际关系数据的步骤，包括：

针对每个从计算节点，对获取到的子数据集进行Map运算，获得对应的第一键值对数据，所述子数据集经由所述待分析的数据集分割获得；

将所述第一键值对数据进行分组获得第二键值对数据，使得相同键值的第一键值对数据归为一类；