[发明专利]一种面向大流量实时图数据的低资源消耗的超级节点识别过滤方法和系统有效
申请号: | 201810671449.9 | 申请日: | 2018-06-26 |
公开(公告)号: | CN109189743B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 黄亮;孙立远;曹开研;王振宇;李斌斌;王树鹏 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;中国科学院信息工程研究所 |
主分类号: | G06F16/178 | 分类号: | G06F16/178;G06F16/182;H04L12/26;H04L29/06 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 流量 实时 数据 资源 消耗 超级 节点 识别 过滤 方法 系统 | ||
本发明公开一种面向大流量实时图数据的低资源消耗的超级节点识别过滤方法和系统,属于大数据预处理领域。该方法包括:1)接收图数据并对其进行格式转化;2)根据过滤规则对格式转化之后的数据进行过滤;3)识别过滤之后的数据中的超级节点,并根据识别出的超级节点对所述过滤规则进行动态修改。该系统包括数据接收模块、数据过滤模块、过滤规则管理模块以及超级节点识别模块。本发明可在海量实时图数据流中识别出超级节点,是一种低资源消耗的超级节点识别方案,只需极少资源就可以在海量数据中识别出超级节点。
技术领域
本发明属于大数据预处理领域,涉及一种在海量实时图数据场景下,识别和过滤超级节点的方法和系统。
背景技术
随着计算机技术的不断发展和信息化程度的不断提高,数据量在迅速增长,数据结构也越来越复杂,传统的关系型数据模型在很多场景下已难以使用,非关系型数据模型越来约流行。图数据模型是非关系数据模型中的一种,模型中的基本元素为点和边,分别可以用来表示现实中的实体和实体之间的关系,因此图数据模型非常适合存储关系网络等复杂的数据。以图数据模型为基础的数据库是图数据库,图数据库是NoSQL数据库的一种类型。
超级节点(super node)指的是有非常多边与其相连的点。超级节点是目前所有图数据库共同面临的难题,在图的遍历过程中,如果遇到超级节点,图检索的结果将瞬间变得非常大,导致遍历结果集太多或者直接导致图遍历不能继续进行,而图遍历正是图数据库的核心功能。太多的超级节点将直接导致图库失去使用价值。而且在很多业务场景下,含有超级节点的数据几乎没有任何价值,甚至严重影响其他数据质量。另一方面,含有超级节点的数据通常是不正常数据,如在邮件模型中,邮箱地址为一个点,每次发送邮件都会产生一条边,边的起始点为发送者,终止点为收件者。正常的邮箱只会产生少量的边,而发送垃圾邮件的邮箱则动辄就会发送百万甚至更多的邮件。及时识别出发送垃圾邮件的邮箱(超级节点)并屏蔽(过滤)是非常有必要的。同样适用于在通话和短信数据中识别出诈骗电话。因此及时识别出图数据中的超级节点是非常有必要的。
传统的超级节点识别方法是,对每个点建立一个计数器,该点每增加一条边计数器加一。在数据量较少时,该方法没有任何问题,但是在数据量非常多时,会需要非常多的内存。虽然可以通过分布式系统来缓解问题,但是在数据量非常大时,分布式系统存在内存不足的问题。另一方面,大多数的点在计数过程中只出现有限的几次,对它们建立计数器是极大的浪费,且资源通常也不允许。
发明内容
针对目前超级节点识别系统的问题,本发明提出了一种面向海量实时图数据的、低资源消耗的超级节点识别与过滤方法和系统。
本发明采用的技术方案如下:
一种面向大流量实时图数据的超级节点识别与过滤方法,包括以下步骤:
1)接收图数据并对其进行格式转化;
2)根据过滤规则对格式转化之后的数据进行过滤;
3)识别过滤之后的数据中的超级节点,并根据识别出的超级节点对所述过滤规则进行动态修改。
进一步地,步骤1)从包括csv文件、消息队列在内的数据源读取数据,将其格式化为triplet数据并放入有界队列;所述triplet数据由两个点,两个点之间的关系,以及点与关系的属性构成。
进一步地,步骤2)从有界队列中取出格式化之后的triplet数据,按照过滤规则对其进行匹配,如果符合过滤规则,则丢弃该条数据,否则进入步骤3)进行处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院信息工程研究所,未经国家计算机网络与信息安全管理中心;中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810671449.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:题目提取方法和系统
- 下一篇:一种云平台的资源处理的方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置