[发明专利]一种社交媒体用户行为时间模式的自适应隐私保护方法有效
| 申请号: | 201710706006.4 | 申请日: | 2017-08-17 |
| 公开(公告)号: | CN107688751B | 公开(公告)日: | 2021-02-26 |
| 发明(设计)人: | 曾剑平;张泽文 | 申请(专利权)人: | 复旦大学 |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62 |
| 代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
| 地址: | 200433 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 社交 媒体 用户 行为 时间 模式 自适应 隐私 保护 方法 | ||
1.一种社交媒体用户行为时间模式的自适应隐私保护方法,其特征在于,先定义所需处理的用户行为、行为模式元信息、行为模式的元信息集:
定义1,用户行为,是指用户在网络社交媒体中留下附带有时间标签的痕迹的行为,包括发贴行为、评论行为、签到行为;在面向以时间点数据为主的应用中,时间模式是导致隐私泄露的主要数据源,将这种原始的用户行为表示为:
U(u,d)=(t1,t2,…tm)
其中,u表示某个用户,d表示某个时间段,t表示行为在时间标签上的数值,m是在d时间段内的时间标签数;
定义2,行为模式元信息,一定时间范围内的用户行为对应一个二维结构,将该时间范围按特定粒度切分成时间段,构成第一个维度,每个时间段上用户行为的频次作为第二个维度,连续的n个时间段上用户行为的频次称为行为模式元信息;时间段是元信息的属性,记作A1,A2,…,An,时间段上用户行为的频次是元信息的值,记作a1,a2,…,an,从而元信息可以表示为连续n个时间段属性上的投影,记投影映射为T:
(a1,a2,…,an)=T[(A1,A2,…,An)];
定义3,行为模式的元信息集,把行为模式元信息看作空间中的数据点,由社交媒体中所有用户对应的K个数据点所构成的点集称为行为模式的元信息集,形式定义如下:
其中,Mi={a1,a2,…,an},i=1,2,…,K;
自适应隐私保护方法分为预处理流程和隐私保护流程两个步骤:
(一)预处理流程包括:获取原始数据,按最小时间分割粒度,扩大时间段,生成行为模式元信息集;
(1)获取原始数据
原始数据是指社交媒体上与用户行为有关的数据,可以通过各种网络爬虫或社交媒体自身提供的应用程序接口调用得到,将用户标识和行为的时间戳提取出来,原始数据集包括若干个用户在一定时间内的行为数据,符合定义1的要求;
(2)按最小时间段分割
先设定一个最小时间段,其原则是优先保证数据可用性;分割过程就是对原始数据集的时间跨度按照最小时间段进行平均分割;
(3)扩大时间段
扩大时间段的目的是为了提升数据的隐私度,同时减小原始数据的数据量,以保证后续的自适应微聚集算法在处理这些数据时不需要太多的计算资源消耗;扩大时间段的过程为:依次扫描每个最小时间段上的用户行为数量,当该数量小于匿名度时,表明这种时间段无法保证k个不同用户的隐私;将其与后续的时间段进行合并,直到满足行为数量大于匿名度为止,得到了一系列时间段A1,A2,…,An;
(4)生成行为模式元信息集
生成行为模式的元信息集就是统计每个用户在每个时间段分割区间上的行为数量,并构造成为一个大小为用户数量*时间段数的矩阵;
对于已经获得的一系列时间段A1,A2,…,An,按照顺序分别形成分割区间,即[0,A1],[A1,A2],…,[An-1,An];
最终所形成的矩阵形式上为:
其中,每个元素Mij表示第i个用户在第j个区间上的行为次数,K为用户数;
(二)隐私保护流程,包括:设定匿名度k,执行微聚集隐私保护算法的处理流程,产生隐私保护数据集
(1)设定匿名度k
匿名度是用于控制一个数据集中相同记录的个数;对于一个含有k个用户的数据集,如果这些用户的行为数据都相同,那么攻击者成功推断其中任何一个用户的概率为1/k;
(2)微聚集隐私保护算法的处理,具体步骤如下:
对于用户行为模式的元信息集匿名度k;
1)计算元信息集的整体质心,找出离整体质心最远的点作为离心点,并找出距离离心点最近的2k-1个点;依距离从小到大排序,取前k-1个与离心点组成一个既有类,而剩余的k个点构成一个候选点队列;
2)对于候选点队列中的每一个候选点,循环执行步骤3)-5)的自适应判断条件,决定是否将候选点加入到既有类中;
3)构建第一假想类、第二假想类、第三假想类,既有类与候选点共同形成的类作为第一假想类,除第一假想类之外的k个距离候选点最邻近的点形成的类作为第二假想类,候选点与除既有类之外的k个最近邻点形成的类作为第三假想类;
构造完假想类后,分别计算既有类、第一假想类、第二假想类以及第三假想类这四个类的信息损失;如果既有类与第三假想类的信息损失之和大于第一假想类与第二假想类的信息损失之和,则执行步骤4);反之,执行步骤5);
4)将候选点加入既有类之中,并从候选点队列中删除,继续处理下一个候选点;
5)只将候选点从候选点队列中删除,不加入既有类之中,继续处理下一个候选点;
6)记录既有类信息,并将该既有类中的点从元信息集中删除,若元信息集剩余点的个数不少于2k,则回到步骤1)继续执行;否则,依照信息损失最小原则,将剩余点分配到相应的既有类之中;
7)生成隐私保护后的数据集,对每一个既有类中的每个点用该既有类的质心代替,从而将原始行为模式的元信息集转换成为新的具备保护隐私能力的数据集;
最后得到隐私保护后的数据集。
2.根据权利要求1所述的社交媒体用户行为时间模式的自适应隐私保护方法,其特征在于,步骤3)-5)中的自适应判断条件,具体如下:
判断候选点是否加入既有类时,需要构造三个假想类;既有类与第三假想类的信息损失之和大于第一、第二假想类的信息损失之和,就是候选点加入既有类后减小整体信息损失的充要条件;该判断条件的具体计算方法如下:
首先,既有类的信息损失记为IL1,信息损失采用SSE度量方法,即误差项的平方和,由此,可以计算既有类的信息损失IL1:
上式中,xi为既有类中的数据点,为既有类的质心;
在构造的第一假想类中,候选点被分配到了既有类中,因而对既有类的质心造成了扰动,记第一假想类的质心为则第一假想类的信息损失IL′1的计算方法如下:
同理,第二假想类的信息损失IL2和第三假想类的信息损失IL′2分别表示为:
上式中,xj为第二假想类和第三假想类中的数据点,为第二假想类的质心,为第三假想类的质心;
如果把候选点分配到既有类中,则整体的信息损失ILa为第一假想类和第二假想类的信息损失之和,即:
ILa=IL′1+IL2
如果把候选点分配到第二假想类中,则整体的信息损失ILb为既有类和第三假想类的信息损失之和,即:
ILb=IL1+IL′2
将两种情况下的信息损失相减,得到它们的差值ΔIL:
ΔIL=ILa-ILb=ΔIL1-ΔIL2
其中,ΔIL1为第一假想类相对于既有类的信息损失增量,ΔIL2为第三假想类相对于第二假想类的信息损失增量,ΔIL表示候选点分配到既有类中相对于候选点分配到第二假想类中的整体信息损失的增量;
判断条件为ΔIL≤0,这一条件的满足,说明候选点分配到既有类中造成的整体信息损失更小,把候选点加入既有类中;反之,说明候选点分配到第二假想类中造成的整体信息损失更小,不把候选点加入既有类中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710706006.4/1.html,转载请声明来源钻瓜专利网。





