[发明专利]一种关系发现方法和装置、计算机可读存储介质在审
| 申请号: | 201910038593.3 | 申请日: | 2019-01-16 |
| 公开(公告)号: | CN109800251A | 公开(公告)日: | 2019-05-24 |
| 发明(设计)人: | 梁秀钦 | 申请(专利权)人: | 北京明略软件系统有限公司 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28 |
| 代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;栗若木 |
| 地址: | 102218 北京市昌平区东小*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实体标识 事件标识 事件索引 计算机可读存储介质 方法和装置 配对 关系抽取 关系计算 规则确定 记录标识 复杂度 发现 预设 申请 存储 引入 | ||
本申请公开了一种关系发现方法和装置、计算机可读存储介质,所述方法包括:根据预设的关系抽取规则确定事件索引标识,所述事件索引标识包括事件标识、事件中的实体标识和实体的记录标识;对具有相同事件标识的不同实体标识进行两两配对,得到所述实体标识的关系人结果。本申请通过引入事件索引标识,多个事件的数据可以按标识分别进行存储,在关系发现时,通过对相同事件标识的不同实体标识进行两两配对,大大减少了关系计算的复杂度。
技术领域
本申请涉及但不限于数据挖掘技术领域,尤其涉及一种关系发现方法和装置、计算机可读存储介质。
背景技术
关系网络是指在网络挖掘、金融分析、公共安全以及相关的链接关系分析领域中,专家定义或识别抽取的一系列实体及其间的关系所构成的网络结构。这些新场景中的关系网络类似在线社交网络,但是其容纳和覆盖的实体更加丰富多样。
在关系网络中,实体是指具有扩展属性的个体,例如,出行中的个人,社交中的特定人。公安领域中基于事件数据的挖掘定义了一类关系,该类关系旨在通过分析、挖掘、推理的方式找到实体之间的关系,所以该类关系称为隐性关系。当前隐性关系的发现主要依赖事件数据,比如火车出行、上网和旅店住宿等数据。
在隐性关系中有一类计算是针对多事件融合的实体关系,比如,隐性关系描述为在某个行政区划下,某个时间点出现的实体,那么我们认为这些实体之间具有该行政区划下的隐性关系。由于这些实体来自多个事件,比如,在某个行政区划下有火车事件、大巴事件和住宿事件等,我们把火车站、大巴车站、住宿地址统称为在某个行政区划。此外,当计算某个地方方圆1公里内的事件实体关系时,也需要融合多个事件的数据。
如图1所示,在针对多事件融合的关系计算中,当符合某个条件的实体数非常多时,增加一个实体将导致两两实体之间的关系对数成指数级增长,即产生组合爆炸问题。关系计算中的组合爆炸问题给存储和计算过程带来了严重考验。
现有技术一般使用分布式计算和存储平台来改善该问题,通过分布式计算可以加快计算速度,通过分布式存储结合一定的压缩技术可以减少存储数据,但是现有技术不能从根源上降低关系计算的复杂度和减少存储数据的指数级增长。
发明内容
本发明实施例提供了一种关系发现方法和装置、计算机可读存储介质,能够减少关系计算的复杂度。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种关系发现方法,包括:
根据预设的关系抽取规则确定事件索引标识,所述事件索引标识包括事件标识、事件中的实体标识和实体的记录标识;
对具有相同事件标识的不同实体标识进行两两配对,得到所述实体标识的关系人结果。
在一实施例中,当所述预设的关系抽取规则包括对所述事件中的实体标识和/或实体的记录标识的过滤条件时,在确定所述事件索引标识之后,所述方法还包括:
根据所述事件中的实体标识和/或实体的记录标识的过滤条件,对确定的所述事件索引标识进行过滤。
在一实施例中,所述根据预设的关系抽取规则确定事件索引标识,包括:
根据所述预设的关系抽取规则确定聚类索引标识,所述聚类索引标识为属于同一组的一个或多个事件数据的组索引值;
获取所述聚类索引标识下的事件索引标识。
在一实施例中,在所述根据预设的关系抽取规则确定事件索引标识之前,所述方法还包括:
提取事件数据中关系发现所必需的字段并对其进行编码;
对所述编码后的数据构建索引标识,所述索引标识包括事件索引标识和/或聚类索引标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910038593.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:不再配置企业中心服务器的系统架构
- 下一篇:一种工程项目档案信息管理系统





