[发明专利]敏感信息识别方法、系统、可读存储介质及计算设备在审

专利信息
申请号: 202211401061.X 申请日: 2022-11-09
公开(公告)号: CN115993972A 公开(公告)日: 2023-04-21
发明(设计)人: 李丰廷;郝新;刘焱 申请(专利权)人: 支付宝(杭州)信息技术有限公司
主分类号: G06F8/41 分类号: G06F8/41;G06F21/62;G06F21/64
代理公司: 上海东信专利商标事务所(普通合伙) 31228 代理人: 李丹;杨丹莉
地址: 310063 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 敏感 信息 识别 方法 系统 可读 存储 介质 计算 设备
【说明书】:

发明涉及一种敏感信息识别方法、系统、可读存储介质及计算设备,方法包括步骤:获取待识别代码;确定待识别代码的语言类型;对待识别代码进行语法树变换,生成待识别代码对应的语法树;提取待识别代码中与字面量相关的符号表,并确定其中的变量、函数、类、常量和注释之间的关系;采用预设的数据结构表征变量、函数、类、常量和注释之间的关系,其中,针对不同的待识别代码预设的数据结构相同;针对每个字面量,确定该字面量在待识别代码中的使用场景,并得到其在使用场景中的相关信息;识别该字面量是否为敏感信息。本发明的敏感信息识别方法和系统,在提升敏感信息提取能力的同时,解决了多种语言类型的代码接入时开发量剧增的问题。

技术领域

本发明涉及数据安全技术领域,更具体地涉及一种前后端分离的敏感信息识别方法、系统、可读存储介质及计算设备。

背景技术

随着互联网产品在用户生活中越来越重要,用户数据的隐私保护也越来越被重视,各国家和地区均推出了一系列数据安全和隐私保护的法律法规,以要求互联网企业对自身业务中包含用户隐私的数据进行分类分级进行不同安全级别的保护。

文本作为用户身份识别数据的主要载体,一旦泄露会给用户造成重大损失。在对一段原始文本中的未知数据进行扫描分级的过程中,由于所在国家和地区的不同,各种类型的隐私数据存在不同的组织形式,因此需要针对类型、地区等因素定制化各种敏感信息的识别方法。

代码语言作为程序设计的核心载体,在编写过程中可能在代码段及配置语言中硬编码多种用于测试及连接用关键凭据的敏感信息,例如账号密码、身份证、邮箱和手机号等。敏感信息主要可以分为两类:第一类为存在明确组成格式及校验方式的信息,例如身份证,其为地区码+生日+随机码+校验位等;第二类为不存在明确格式且/或不存在校验方式,例如账号密码、手机号等。针对上述两类数据的提取,现有技术中主要采用正则结合上下文及校验位的匹配方式。该方法对于富文本的提取较为有效,但在应对代码文本等存在嵌套、值传递、作用域划分的场景时则显得吃力,其主要存在以下问题:1)难以考虑上下文信息,在具有多种代码语言的代码段和配置文件的语义上无法实现准确提取;2)针对间接赋值、计算赋值、函数常量传参、复杂计算赋值、setter/getter赋值取值、语言特性等代码语言及复杂问题,正则提取的方式无法覆盖;3)在进行多语言细分准确率优化时,存在语言细分之间冲突的情况,若采用正则方法,易出现两种不同语言互为冲突的问题;4)对于上下文敏感场景(即使用场景)因为不同语言的上下文存在形式不一致,后续的提取部分在正则识别中难以共享,实现难度随语言数量线性增长。而且,由于不同的代码语言组成差异较大,为每种代码语言开发对应的敏感类型提取方法,会导致开发复杂度以代码的语言类型数量和使用场景数量的乘积的形式平方级增长。

发明内容

本发明的目的之一在于提供一种敏感信息识别方法,在提升待识别敏感信息提取能力的同时,解决了多种语言类型的代码接入时开发量剧增的问题。

基于上述目的,本发明提供一种敏感信息识别方法,包括步骤:

获取待识别代码;

确定所述待识别代码的语言类型;

根据所述待识别代码的语言类型,对所述待识别代码进行语法树变换,生成所述待识别代码对应的语法树;

根据所述语法树,提取所述待识别代码中与字面量相关的符号表,并确定所述符号表中的变量、函数、类、常量和注释之间的关系;

采用预设的数据结构表征所述符号表中的变量、函数、类、常量和注释之间的关系,其中,针对不同语言类型的待识别代码预设的数据结构相同;

针对每个字面量,根据所述数据结构,确定该字面量在所述待识别代码中的使用场景,并得到该字面量在所述使用场景中的相关信息;

针对每个字面量,根据该字面量及其在所述使用场景中的相关信息对该字面量是否为敏感信息进行识别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211401061.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top