[发明专利]一种基于代码层语义解析驱动的隐私数据识别方法有效
申请号: | 201711277112.1 | 申请日: | 2017-12-06 |
公开(公告)号: | CN108171073B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 杨珉;杨哲慜;南雨宏;张源;朱东来 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F40/279 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 代码 语义 解析 驱动 隐私 数据 识别 方法 | ||
本发明属于程序信息安全检测技术领域,具体为一种基于代码层语义解析驱动的隐私数据识别方法。本发明方法包括:基于自然语言处理技术的隐私相关语义分析和代码片段定位:提取代码中的字符串常量标识符,经过预处理之后,将字符串常量中的语义信息与预先定义好的语义相关隐私词典进行匹配,通过字符串常量当中的词性标签,以及不同词语在句子短语当中的依赖关系来判断其是否表明特定的隐私数据;基于机器学习的隐私相关代码片段识别:采用机器学习的支持向量机模型,通过抽取隐私数据使用的代码特征行为作为判断给定的代码是否包含系统所关注的隐私数据。通过对这类隐私数据识别,将其标记为敏感数据源,从而降低用户隐私数据的泄露风险。
技术领域
本发明属于程序信息安全监测技术领域,具体涉及隐私数据识别方法。
背景技术
传统的自动化隐私泄露检测只关注于特定系统管控的隐私数据,如针对地理位置信息,只能够指定单一API(如getLastKnownLocation())作为隐私数据源,之后结合信息流分析来判断这样的隐私数据是否流向了特定的终点(如网络接口),从而判断是否构成隐私泄露。随着移动应用的快速发展,传统的隐私数据源已经无法覆盖移动应用中所包含的很多新型隐私数据。例如,除去系统管控的隐私之外,不同的应用均有与自身应用相关的隐私数据,例如用户账户资料数据,银行卡数据,敏感历史记录等。这些隐私数据与系统权限模型并没有直接关系,在本发明中被称之为非系统管控隐私数据。
对于此类非系统管控的隐私数据,传统的信息流分析工具难以直接将其标识出来。这是因为,与传统的隐私来源不同,非系统管控的隐私往往来源于设备自身以外的其它地方,使得其从代码角度无法进行统一直接的标识。例如,很多隐私数据来自于用户输入,由用户在注册或者登陆过程中将隐私数据通过EditText.getText()的方式传递到程序内部当中,如果使用传统的隐私来源标识方式将getText()这一API标识为隐私数据来源,必然会导致大量的误报,这是因为很多从界面获取到的数据并不一定包含用户隐私(如输入商品数量)。另外,更多的应用相关隐私数据往往来自于应用自身所在的云端服务器,如用户在登陆其应用账号之后,应用会将服务器端的用户隐私数据通过HTTP请求缓存到应用当中,之后再用于不同的场景。在这种情况中,尚未有方法能够自动化标识来自于服务器中的哪些数据为用户隐私。
发明内容
本发明的目的是提供一种全新的基于代码层语义解析驱动的隐私数据识别方法,适用于大规模自动化地从应用的代码当中识别其所包含的非系统管控隐私数据。
本发明提出的基于代码层语义解析驱动的隐私数据识别方法,包括两部分,一是基于自然语言处理技术的隐私相关语义分析和代码片段定位,二是基于机器学习的隐私相关代码片段识别。在第一部分中,首先提取代码中的字符串常量标识符(例如参数常量等),在经过一系列预处理之后,将字符串常量中的语义信息与预先定义好的语义相关隐私词典进行匹配,通过字符串常量当中的词性标签(POS Tagging),以及不同词语在句子短语当中的依赖关系来判断其是否表明特定的隐私数据。在第二部分中,采用机器学习的支持向量机模型,通过抽取隐私数据使用的代码特征行为作为判断给定的代码是否包含了系统所关注的隐私数据。通过语义信息与代码结构特征相互补充结合的方式来实现隐私数据的标识。通过对这类隐私数据进行识别,能够将其标记为敏感数据源,为此类隐私数据的监控和保护提供基础,从而降低用户隐私数据的泄露风险。
本发明最终设计架构如图1所示,以下将详细介绍本发明的两个部分:
一、基于自然语言处理技术的隐私相关语义分析和代码片段定位,具体过程如下:
(1)定义隐私信息:本发明首先定义了一些隐私相关的关键词,并通过文本中是否出现这些关键词来初步判断文本是否为隐私相关;关键词集合由人工筛选提取。例如,来自于谷歌隐私政策文档中所提供的隐私相关的关键词,这些关键词的近义词以及从10000个谷歌应用市场的应用中提取出的和这些关键词有较高相似度的词构成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711277112.1/2.html,转载请声明来源钻瓜专利网。