[发明专利]一种基于机器学习技术的数据泄漏风险检测的方法在审
| 申请号: | 202111180540.9 | 申请日: | 2021-10-11 |
| 公开(公告)号: | CN113886851A | 公开(公告)日: | 2022-01-04 |
| 发明(设计)人: | 廖文哲 | 申请(专利权)人: | 全知科技(杭州)有限责任公司 |
| 主分类号: | G06F21/60 | 分类号: | G06F21/60;G06F21/62;G06N20/00 |
| 代理公司: | 杭州奇炬知识产权代理事务所(特殊普通合伙) 33393 | 代理人: | 贺心韬 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 机器 学习 技术 数据 泄漏 风险 检测 方法 | ||
本发明公开了一种基于机器学习技术的数据泄漏风险检测的方法,涉及信息安全技术领域,解决了目前传统静态异常阈值不准确,配置麻烦,严重依赖专家经验的技术问题。本发明方法如下:计算API历史一段时间的KPI;进行数据抽样;对样本进行时间序列分类;对KPI根据不同的时间序列类别分别给出智能上阈值;计算API最近一个单位时间的KPI值,判断是否超出了上阈值,一旦超出阈值,立即触发告警,启动相应应急方案;每隔一个单位时间重复2‑5步骤。本发明给出的智能阈值不仅能够识别出数据是否存在异常泄漏的情况,摆脱专家经验的问题,从而保护数据安全隐私。
技术领域
本发明涉及信息安全技术领域,具体涉及一种基于机器学习技术的数据 泄漏风险检测的方法。
背景技术
API(Application Programming Interface,应用程序接口)是一些预先定义 的接口(如函数、HTTP接口),或指软件系统不同组成部分衔接的约定。用 来提供应用程序与开发人员基于某软件或硬件得以访问的一组例程,而又无需 访问源码,或理解内部工作机制的细节。
调用程序可以基于API获取数据库中的数据(比如身份证,手机号码, 账号密码)以实现如页面登陆等功能,这种机制也容易被不法分子利用从而导 致数据的泄漏(例如网络爬虫)。传统数据泄漏风险检测方式普遍基于静态阈 值方法:当单位时间内数据返回数量或数据接口调用频率超过静态阈值,判定 存在数据泄漏风险。但是业务应用使用场景、用户群体等具有多样化特性,应 用接口在设计实现、调用规律等层面差异较大,静态阈值方法往往严重依赖专 家经验进行专门配置,并且需要跟进业务应用变动情况手工调整阈值,因此该 方法人工成本较高,误报和漏报情况较为严重。
发明内容
本发明的目的是提供一种基于机器学习技术的数据泄漏风险检测的方法, 基于API接口数据访问量的历史时间趋势,检测是否存在数据泄漏风险。
为了实现上述目的,本发明提供如下技术方案:一种基于机器学习技术的 数据泄漏风险检测的方法,步骤如下:
S1.计算API历史一段时间的KPI;
S2.进行数据抽样;
S3.对样本进行时间序列分类;
S4.对KPI根据不同的时间序列类别分别给出智能上阈值;
S5.计算API最近一个单位时间的KPI值,判断是否超出了上阈值, 一旦超出阈值,立即触发告警,启动相应应急方案;
S6.每隔一个单位时间重复S2-S5步骤。
关键绩效指标(KPI)是指一组可量化的衡量标准。KPI为风险管理和改 进提供重点,为决策制定提供分析基础,并有助于将注意力集中在最重要的事 情上。在本场景中,我们可以定义单API单位时间内数据返回总量为一个KPI。
作为优选,
所述的步骤S3中,选用CNN时间序列分类法,设置多个分类类别。
所述的步骤S4中,对于S3步骤时间序列分类中KPI属于平稳型和无 规律波动型,则计算这个时间段内KPI的均值u和方差σ,利用u+3σ作 为上阈值。
所述的步骤S4中,对于S3步骤时间序列分类中KPI属于周期型,则 利用时间差分减去昨天同时段的值,然后再计算上述值的均值u和方差σ, 利用u+3σ作为上阈值。
本发明所描述的一种基于机器学习技术的数据泄漏风险检测的方法, 基于本方法给出的智能阈值不仅能够识别出数据是否存在异常泄漏的情 况,而且解决了传统静态异常阈值不准确,配置麻烦,严重依赖专家经验 的问题,从而保护数据安全隐私。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于全知科技(杭州)有限责任公司,未经全知科技(杭州)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111180540.9/2.html,转载请声明来源钻瓜专利网。





