[发明专利]具有主成分分析的混合数据指纹在审
申请号: | 201780086812.4 | 申请日: | 2017-11-20 |
公开(公告)号: | CN110431551A | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 马丁·罗斯;梁芷苓·克里斯蒂娜;迈克尔·安德森 | 申请(专利权)人: | 链睿有限公司 |
主分类号: | G06F17/12 | 分类号: | G06F17/12;G06F17/16;G06T1/00;G06T1/20 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 唐杰敏 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据集 主成分分析 参考文件 成分模式 混合数据 数据集中 数据减少 数据提供 压缩 加指纹 构建 可用 子集 指纹 应用 统计 | ||
主成分分析被应用于数据集以对数据集加指纹或将该数据集与可能已从该数据集中找到的数据所构建的“野生文件”进行比较。主成分分析允许将用于比较的数据减少到数据集的简约经压缩的签名。变量之间具有不同模式的数据集将具有不同的主成分模式。可以计算野生文件中变量(或其相关子集)的主成分,并将其与数据提供者的参考文件中的相同变量的主成分进行统计比较以提供分数。这构成了文件的可用于标识和与来自其他文件的类似定义的模式进行比较的唯一且经压缩的签名。
技术领域
本发明的领域是数据隐私、基于内容的零水印方法和数据认证。
背景技术
专有数据文件(例如,类型.csv、.sql、.txt和其他的文件)或者JSON或XML数据馈送中的文本数据的故意或无意泄漏代表了企业收益损失的显著且潜在的破坏性来源。现有解决方案可用于减轻数据驻留在企业防火墙后时的损失。安全的HTTP或SSL协议等解决方案降低了数据(无论是文件还是数据馈送)离开防火墙并穿越互联网到合法接收者(受信任的第三方或TTP)时的损失风险。存在其他解决方案:一旦在原始源(数据所有者)的防火墙之外使用它们,就断言并记录文件所有权。这些数据水印和指纹解决方案是合需的,因为它们在法律渎职的情况下提供了所有权的证据。如前所述,用于恢复损害的法律规程的存在应该充当不良行为者的威慑物,不良行为者会为了他们自己的利益而占用和自由地使用这些数据,包括将其出售给他人。
数据水印和数据指纹构成了用于展示数据文件所有权的两类规程。这两种办法并不总是相互排斥,但获得一般的区分。文件水印涉及对数据作出改变(通常是微小的)以创建难以被用户识别的唯一模式。根据指定的规则来更改数字(连续)变量的最低有效数位是一个简单的示例。创建数据文件的指纹不涉及对数据的变更;相反,该数据的特性被用于创建可在事实之后被识别的签名。简单的指纹可以在文件中的变量的统计表征上来预测。更复杂的指纹可以基于多变量分析,该分析定义了数据集中的变量之间的协方差结构以允许将其与其他文件区分开来。因为指纹在技术上是水印的子集或替代,所以指纹方法也被称为基于内容的零水印技术。虽然它们基于数据文件的内容,但它们不涉及数据的任何更改,因此引用“零”水印。
与音频、视频、静止图像、甚至其他文本材料(诸如书、期刊或类似出版物)相比,数据表(文本和数值的行乘列排列)或其文本馈送等效物对水印或指纹提出了独特的挑战。在最简单的水平处,图像中的一些像素可能无法被识别,并且被巧妙地改变以创建构成唯一标识符的水印。因此,文件可以通过原始水印来与同一图像的其他类似略微改变的版本区分开来。视频和音频文件提供了甚至更多的水印插入机会,这是因为它们巨大的位深和重复性。在重复的视频帧中改变几个像素是相对容易的,或者修改视频帧的序列以创建唯一且可识别的水印是甚至更难以察觉和更复杂的。可以在时域和频域两者中使用音频文件来执行类似的操作以嵌入标识水印或以其他方式按人类听觉不可察觉的方式来改变信号。实际上,只有水印创建者才能标识它。通过明智地使用单词之间的间距、改变样式和句法,可以在书、期刊和其他文本材料上使用各种技术来产生无法识别的水印。先前在文献中已广泛地描述了这些规程。
主成分分析(PCA)和相关技术(诸如独立成分分析和多维缩放)已在取证和民用应用中被应用于人类指纹的生物医学分析。在指纹取证中,这些技术被应用于由局部脊不连续、脊末梢和分叉引起的广泛接受的指纹特征类。已示出用于指纹分析的主成分分析办法来提供与原始的未压缩的数据类似的性能,但具有减少的计算量。这些办法已被用于认证和识别两者。
主成分分析的另一个主要应用在于来自化学成分数据集的指纹生物现象。示例包括各种油源(例如,油轮)和从溢油获得的样品的化学签名。这些应用找到从GC-MS(气相色谱分析-质谱分析法)色谱图获得的数据的前几个主成分,该前几个主成分允许快速且客观的指纹规程,从而更全面地使用数据,因为大量变量集之间的共变被压缩成较小的正交分量集。PCA也已被用于定义猪粪中的微生物群落,诸如来自孕猪与育肥猪的浆料之间的差异。这些发现表明,PCA与其他数种技术的结合的应用可被用于准确地监视不同的代谢活跃人群。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于链睿有限公司,未经链睿有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780086812.4/2.html,转载请声明来源钻瓜专利网。