[发明专利]一种应用程序越界收集个人信息行为的判定方法有效

专利信息
申请号: 202211320374.2 申请日: 2022-10-26
公开(公告)号: CN115630357B 公开(公告)日: 2023-09-22
发明(设计)人: 黄诚;陈俊任;王子岩 申请(专利权)人: 四川大学
主分类号: G06F21/55 分类号: G06F21/55;G06F16/35;G06F16/31;G06F40/295;G06F40/14;G06F18/22;G06N3/0442;G06N3/0464;G06N3/08
代理公司: 成都厚为专利代理事务所(普通合伙) 51255 代理人: 王杰
地址: 610065 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 应用程序 越界 收集 个人信息 行为 判定 方法
【权利要求书】:

1.一种应用程序越界收集个人信息行为的判定方法,其特征在于,包括:

S100.获取原始语料库,并基于所述原始语料库训练Word2vector词嵌入模型,所述原始语料库为应用程序市场中各应用程序的隐私政策文本;

S200.基于第一信息进行训练得到用于识别命名实体的命名实体识别模型,所述第一信息为所述原始语料库中关于个人信息收集与使用的描述内容,所述命名实体包括业务内容和个人信息类别;

S300.利用预先标注的数据集训练文本分类模型;

S400.根据预设规则确定每种类型的应用程序的基本业务和必要个人信息,并形成各类应用程序的合规三元组,所述合规三元组包括应用程序类型、基本业务和必要个人信息;

S500.提取待检测隐私政策文本中的序号和小标题作为节点,形成所述待检测隐私政策文本的XML树结构,其中,所述序号作为所述XML树结构中节点的mark属性值,所述小标题作为XML树结构中节点的title属性值;

S600.利用所述Word2vector词嵌入模型计算所述XML树中节点的title属性值与预定义文本的相似度,若相似度大于阈值,则将该节点中的文本内容作为第二信息;

S700.利用所述命名实体识别模型从所述第二信息中提取出业务内容和个人信息类别,并形成二元组,所述二元组包括业务内容和个人信息类别;

S800.获取待检测隐私政策文本中包括所述业务内容的描述文本,基于所述描述文本、利用文本分类模型预测所述业务内容的业务种类,并形成待检测三元组,所述待检测三元组包括业务内容、业务种类和个人信息类别;

S900.根据待检测应用程序的类型获取对应的合规三元组,并将获取到的合规三元组与待检测三元组进行对比,判断应用程序是否越界收集个人信息。

2.根据权利要求1所述的一种应用程序越界收集个人信息行为的判定方法,其特征在于,所述命名实体识别模型为LSTM+CRF模型、BiLSTM+CRF模型或ID-CNN+CRF模型。

3.根据权利要求1所述的一种应用程序越界收集个人信息行为的判定方法,其特征在于,所述文本分类模型为SVM模型、LSTM+softmax模型、BiLSTM+sofmax模型或TextCNN模型。

4.根据权利要求1所述的一种应用程序越界收集个人信息行为的判定方法,其特征在于,利用预先标注的数据集训练文本分类模型,包括:

S310.获取基本业务的描述语句样本和附加业务的描述语句样本;

S320.对所述描述语句样本进行第一预处理;

S330.将经第一预处理后的描述语句样本输入TextCNN模型,所述TextCNN模型的输出为所述描述语句样本属于基本业务和附加业务两个类别的概率向量,然后利用所述描述语句样本的真实类别标签对TextCNN模型进行训练、直至TextCNN模型收敛,最终得到文本分类模型。

5.根据权利要求4所述的一种应用程序越界收集个人信息行为的判定方法,其特征在于,对所述描述语句样本进行第一预处理,包括:

S321.对所述描述语句样本进行分词;

S322.对分词后的描述语句样本去除停用词;

S323.根据预先定义的值对去除停用词后的描述语句样本的文本长度进行填充和截断,以使所有描述语句样本的文本长度相同;

S324.将进行填充和截断后的描述语句样本中的词语转换为向量。

6.根据权利要求5所述的一种应用程序越界收集个人信息行为的判定方法,其特征在于,利用所述Word2vector词嵌入模型将所述描述语句样本中的词语转换为向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211320374.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top