[发明专利]一种网页风险发现的方法在审

申请号：	202110484421.6	申请日：	2021-04-30
公开（公告）号：	CN113761318A	公开（公告）日：	2021-12-07
发明（设计）人：	吴琼;牛广方;余智华	申请（专利权）人：	中科天玑数据科技股份有限公司
主分类号：	G06F16/953	分类号：	G06F16/953;G06F16/33;G06F40/216;G06F40/289
代理公司：	天津津中今知识产权代理有限公司 12252	代理人：	韩学琴
地址：	100000 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网页风险发现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种网页风险发现的方法，包括下列步骤：S1、数据采集阶段，使用高效蔓延的基本原理，获取到网站大量的网页；S2、数据流转阶段，使用Confluent接入Kafka中数据，调用风险识别服务后，将数据存储至Elasticsearch中，完成整个数据流转；S3、风险识别阶段，针对采集到的数据进行分词，与风险规则库中数据进校对，将符合风险规则数据保存；S4、数据存储阶段，针对采集的原始数据进行处理，然后对处理后的数据，根据数据类型、规模、用途按需存储；S5、风险发现整体流程完成。有益效果：在海量网页数据中能够快速的定位风险网站。

技术领域

本发明涉及数据风险识别领域，具体来说，涉及一种网页风险发现的方法。

背景技术

在实际业务中，采集各通道数据临时存储至消息队列，数据流转平台会接收消息队列实时数据，调用风险识别服务，并将结果集合放入全文检索库。

通常情况下，信息是通过新闻、微信、微博等多种渠道发布的，那么如何快速、高效的过滤出风险信息，这是用户业务场景通常更关注的。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

本发明的目的在于提供一种网页风险发现的方法，旨在快速准确的进行风险发现,以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种网页风险发现的方法，包括下列步骤：

S1、数据采集阶段，使用高效蔓延的基本原理，获取到网站大量的网页；

S2、数据流转阶段，使用Confluent接入Kafka中数据，调用风险识别服务后，将数据存储至Elasticsearch中，完成整个数据流转；