[发明专利]具有主成分分析的混合数据指纹在审
申请号: | 201780086812.4 | 申请日: | 2017-11-20 |
公开(公告)号: | CN110431551A | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 马丁·罗斯;梁芷苓·克里斯蒂娜;迈克尔·安德森 | 申请(专利权)人: | 链睿有限公司 |
主分类号: | G06F17/12 | 分类号: | G06F17/12;G06F17/16;G06T1/00;G06T1/20 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 唐杰敏 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 主成分分析被应用于数据集以对数据集加指纹或将该数据集与可能已从该数据集中找到的数据所构建的“野生文件”进行比较。主成分分析允许将用于比较的数据减少到数据集的简约经压缩的签名。变量之间具有不同模式的数据集将具有不同的主成分模式。可以计算野生文件中变量(或其相关子集)的主成分,并将其与数据提供者的参考文件中的相同变量的主成分进行统计比较以提供分数。这构成了文件的可用于标识和与来自其他文件的类似定义的模式进行比较的唯一且经压缩的签名。 | ||
搜索关键词: | 数据集 主成分分析 参考文件 成分模式 混合数据 数据集中 数据减少 数据提供 压缩 加指纹 构建 可用 子集 指纹 应用 统计 | ||
【主权项】:
1.一种用于确定野生文件是否从数据所有者数据集泄漏的装置,其中所述数据所有者数据集和所述野生文件各自包括多个记录,每个记录包括多个字段,所述装置包括:a.子集选择子例程,其中所述子集选择子例程被配置成接收数据所有者数据集和经日期调整的野生文件,并且创建数据所有者子集和野生文件子集,其中所述数据所有者子集和所述野生文件子集分别包含与所述数据所有者数据集和所述野生文件相比减少的记录数;b.PCAmix数据分析子例程,其中所述PCAmix数据分析子例程被配置成接收所述数据所有者子集和所述野生文件子集,并且产生一组数据所有者子集特征值、一组数据所有者子集特征向量、一组野生文件子集特征值、以及一组野生文件子集特征向量;以及c.分数生成子例程,其中所述分数生成子例程被配置成接收所述数据所有者子集特征值、所述数据所有者子集特征向量、所述野生文件子集特征值、和所述野生文件子集特征向量,以产生指示所述野生文件源自所述数据所有者数据集的可能性的相似性分数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于链睿有限公司,未经链睿有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201780086812.4/,转载请声明来源钻瓜专利网。