[发明专利]一种基于可信第三方的神经网络模型与训练数据集的身份审计方法在审
申请号: | 202310205227.9 | 申请日: | 2023-03-06 |
公开(公告)号: | CN116340896A | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 朱浩瑾;董天;陈国兴 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F21/10 | 分类号: | G06F21/10;G06N3/04;G06N3/08;G06F18/214;G06F18/22 |
代理公司: | 上海恒慧知识产权代理事务所(特殊普通合伙) 31317 | 代理人: | 张宁展 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 可信 第三 神经网络 模型 训练 数据 身份 审计 方法 | ||
本发明涉及一种基于可信第三方的神经网络模型与训练数据集的身份审计方法,通过可信第三方进行训练数据集与神经网络模型的版权管理,以及对受害者和敌手进行身份审计,包括以下步骤:S1、受害者调用提取密钥配对(mk,vk)并向可信第三方提交验证密钥vk进行注册;S2、可信第三方根据受害者的请求使用受害者提供的标记密钥mk通过查询置信度分数来黑盒访问从而估计训练数据集和神经网络模型相似度S3、可信第三方通过调用Verify(mksubgt;0/subgt;,vksubgt;0/subgt;,mksubgt;1/subgt;,vksubgt;1/subgt;)判断索引标识为0和1的两方版权纠纷的真正所有者,得到输出b∈{0,1}作为判断所有者方索引。有益效果是基于可信第三方、考虑神经网络模型的数据集版权保护、对于对抗训练鲁棒性强。
【技术领域】
本发明涉及人工智能技术领域,具体涉及一种基于可信第三方的神经网络模型与训练数据集的身份审计方法。
【背景技术】
CIFAR数据集是Visual Dictionary(Teaching computers to recognizeobjects)的子集,主要来自google和各类搜索引擎的图片。cifar100数据集和cifar10类似,有100个类,每个类包含600个图像,600个图像中有500个训练图像和100个测试图像。
以深度学习为代表的人工智能技术正广泛应用于各个领域,例如图像识别、自然语言处理和自动驾驶,其中大规模训练数据集和深度神经网络模型发挥了重要作用。由于数据集收集(包含抓取和注释)和深度神经网络模型训练需要投入大量人力和计算资源,深度学习数据集与模型,尤其是需要专业知识才能获得的高质量数据集与模型(例如,在基于深度学习的药物开发任务中),是需要被保护的高价值知识产权。因此,保护数据集和模型免遭未经授权的复制或不当使用非常重要。
当前的深度学习模型版权保护技术IPGuard[1]通过模型指纹进行模型认证,从而识别出潜在的涉嫌版权侵权的窃取模型。该方法通过设计一组模型指纹,来标识任一神经网络分类模型f,其具体方法如下:1.通过随机选取N组随机标签的样本标签对{(x1,y1),…,(xN,yN)},以及N个标签{y′1,…,y′N},使得对于任意1≤N,满足yi≠y′i。2.利用对抗攻击方法(例如,CW-L2方法[2]),对于每一个xi,生成对抗样本x′i使得f(x′i)=y′i。通过以上两个步骤得到的{(x′1,y′1),…,(x′N,y′N)}成为模型f的指纹。在验证未知模型g指纹的时候,需要将N个x′i样本输入模型g,并得到其预测标签y″i,然后比较y″i是否与指纹标签y′i相同。如果模型g在N个样本上所得到的标签与指纹标签相同的比例高于一定的阈值(例如,0.9),则判定模型g与模型f的指纹相同,为同源模型。因为模型g可能由模型f进行微小修改得到,模型g涉嫌版权侵犯。否则,则判定两模型为非同源模型,不涉及版权侵犯。
基于模型指纹的方法IPGuard,应用于版权保护与数字取证具有以下技术问题:1.该方法仅考虑到了保护深度神经网络的版权,而没有考虑对模型标签有根本影响的数据集的版权。2.该方法基于对抗样本进行指纹设计,易通过常见的对抗训练方法绕过。3.该方法没有考虑实用性:在实际应用中,版权纠纷需要可信第三方进行版权所属权的判决,否则版权侵犯方可以利用相同的方法诬告原版权拥有者。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310205227.9/2.html,转载请声明来源钻瓜专利网。