[发明专利]基于多任务学习的用户隐私泄漏检测方法、服务器及系统有效
申请号: | 201810540969.6 | 申请日: | 2018-05-30 |
公开(公告)号: | CN108830100B | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 宋雪萌;陈潇琳;程志勇;王英龙;聂礼强 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张勇 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 任务 学习 用户 隐私 泄漏 检测 方法 服务器 系统 | ||
1.一种基于多任务学习的用户隐私泄漏检测方法,其特征在于,包括:
S1:为全面表征用户隐私,预先将用户隐私分成若干个细粒度隐私类别,并将这些细粒度隐私类别划分成若干个组,形成用户隐私的组结构信息;
S2:从不同方面抽取用户的隐私特征,来全方位表征用户隐私类别;
在所述步骤S2中,选取隐私特征提取工具,分别从隐私敏感、情感特征、元数据特征、文本特征和语词计量这五个方面来抽取用户的隐私特征;
S3:基于抽取的用户隐私特征,构建用户隐私泄漏的预测模型;并引入多任务学习,同一组内的各个任务共享相关特征,利用组套索模型将用户隐私的组结构信息作为先验,进行特征分组;
所述步骤S3构建预测模型的过程,具体包括:
S31:使用步骤S2提取的隐私特征构建输入集合X∈RN×D和标签集合Y={y1,y2,…,yQ}∈RN×Q来进行建模,其中N表示用户发布内容数量,D为表征每条数据的向量维数,Q=32表示32个子类;
将由用户隐私特征构成的特征向量X通过线性预测模型,得到预测值fq(X);
基于预测值fq(X)和利用预先分类而形成的标签集合Y,使用二范数来构建损失函数L(W);
为防止模型过拟合,在损失函数L(W)基础上添加正则项,进行如下建模:
fq(X)=Xwq
其中:是第q项任务的线性映射权重;W={w1,w2,…wQ}∈RD×Q表示权重矩阵;β是非负正则化参数;X表示特征矩阵;N表示用户发布内容数量;Y表示标签集合;F表示范数;Γ表示最终的损失函数;
S32:利用组套索模型学习同组内各个任务之间的联系,将预测模型、关系表征项、正则化项结合,定义如下:
其中:β是非负正则化参数;G为组别总数,值为8;Cg代表第g组的索引集合;D表示维度总数;d表示每一个维度值;对角矩阵Vg∈RQ×Q表征32个子类对应的组别分配,若第q个任务属于第g个组别,则Vg(q,q)=1,否则为0;W=LS,L∈RD×J表征潜在特征;S={s1,s2,…,sQ}∈RJ×Q表征潜在特征的线性权重;||S||1是矩阵S的L1范式;γ和μ是非负正则化参数;J表示组内内容数目;j表示组内每条内容的指代索引;F表示范数;
S33:采用交替优化策略求解S和L,通过迭代训练直至模型收敛;固定S计算L优化策略如下:
其中,N表示用户发布内容数量;X表示特征矩阵;XT表示特征的转置矩阵;Y表示标签集合;L表示潜在特征;S表示潜在特征的线性权重;ST表示潜在特征线性权重的转置;μ是非负正则化参数;
将其转化为下列线性方程组:
其中I∈R(D×J)×(D×J)为单位矩阵,Vec(·)代表将矩阵的列叠加成单位向量;A表示转化矩阵;B是潜在表示矩阵;N表示用户发布内容数量;X表示特征矩阵;XT表示特征的转置矩阵;Y表示标签集合;L表示潜在特征;S表示潜在特征的线性权重;ST表示潜在特征线性权重的转置;μ是非负正则化参数;
固定L计算S优化策略如下:
其中:tr(A)为矩阵A的迹,Θg∈RJ×J为对角矩阵,便于计算目标函数Γ对于S的导数;X表示特征矩阵;Y表示标签集合;L表示潜在特征;S表示潜在特征的线性权重;ST表示潜在特征线性权重的转置;γ是非负正则化参数;J表示组内内容数目;j表示每一条内容;G为组别总数,值为8;Cg代表第g组的索引集合,对角矩阵Vg∈RQ×Q表征32个子类对应的组别分配;||S||1是矩阵S的L1范式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810540969.6/1.html,转载请声明来源钻瓜专利网。