[发明专利]大型结构化数据集的统计指纹识别在审
申请号: | 201880064872.0 | 申请日: | 2018-09-07 |
公开(公告)号: | CN111201531A | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 亚瑟·科尔曼;梁芷苓·克里斯蒂娜;马丁·罗斯;C·鲍尔斯;N·尚卡尔 | 申请(专利权)人: | 链睿有限公司 |
主分类号: | G06F21/60 | 分类号: | G06F21/60 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 亓云 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大型 结构 数据 统计 指纹识别 | ||
一种用于结构化数据集的统计指纹识别的系统和方法通过将结构化数据库划分为数据子集组开始。这些子集是基于数据的结构来创建的;例如,通过将每一列指定为子集,可以将按列和行描绘的数据分解为子集。从每个子集中导出指纹,然后将针对每个子集的指纹组合,以便创建针对数据集的整体指纹。通过将此过程应用于未知来源的“野生文件(wild file)”,并将结果与数据所有者的文件作比较,可以确定是否从数据所有者错误地获取了野生文件中的数据。
技术领域
本发明的领域是数据水印和指纹识别,尤其是结构化大数据集的统计指纹识别。
背景技术
专有数据文件(例如,.csv、.sql、.txt等类型的文件)或以JSON或XML数据提要(feed)中的文本数据的有意或无意泄漏代表巨大的损坏潜在可能。现有的解决方案可用于防止当数据驻留在公司防火墙后时的丢失。像安全HTTP或SSL协议之类的解决方案防止当数据(无论是作为文件还是作为数据提要)离开防火墙并穿越因特网到达合法接收者(此处描述为“受信任的第三方”或TTP)时丢失的风险。存在其他解决方案以当在原始源(数据所有者)的防火墙之外使用文件时声明并记录文件所有权。这些数据水印和指纹识别解决方案是合需的,因为在盗窃或其他损失的情况下它们提供了所有权证据。
数据水印和指纹识别构成用于证明数据文件所有权的两类过程。这两种办法并不总是相互排斥的,但是获得一般区别。文件水印包括对数据进行更改(通常较小),以创建对于用户难以识别的唯一模式。根据指定规则更改数字(连续)变量的最低有效位是一个简单的示例。创建数据文件的指纹不涉及对数据的更改;相反,数据的特性被用于创建可以在事实之后被识别的签名。一个简单的指纹可能基于文件中变量的统计特性。指纹在技术上是水印的子集或替代,因此指纹方法也被称为基于内容的零水印技术。它们基于数据文件的内容,并且不涉及任何数据更改,因此引用了“零水印”。
数据指纹识别是跨各种文件格式(包括文本文档、音频和视频)的科学工作的已知领域。数据库的数据指纹识别也是已知的工作领域。指纹识别尤其是学术研究中的活跃领域,像斯坦福大学等机构使用基于n元模型(n-gram)的指纹识别办法在文档指纹识别研究中发表了大量工作。在斯坦福大学的研究中,该技术涉及将文本和文档转换为较短的文本字符串,该文本字符串随后可被用作较大文本或文档的唯一标识符。这项工作也已经扩展到包含个人身份信息(PII)的形式,其中该算法可以编码和检索诸如社会安全号码之类的敏感信息。通过在网络文件传输期间检测敏感信息,增强了文档安全性。还已经报告了许多因域而异的扩展。在包含生物学数据的文档中,数据指纹识别的概率方法已被用于文件比较。
尽管在该领域已经进行了工作,但是仍然需要改进文档指纹识别,特别是对于其中文本高度组织化的大型基于文本的数据集(诸如,数据库、数据提要等)而言。
本背景部分中提到的参考不被承认是相对于本发明的现有技术。
发明内容
本发明使用规范统计方法来定义数据集中的数据的内部结构,以提取存在的描述性统计模式。定义大型数据集或其组成子集的统计性质在此被称为统计指纹识别。统计指纹识别是统计上建立数据集的身份的方式。将统计身份建立为唯一表征该数据集的指纹度量集。具有不同固有特性的数据集将具有不同的统计模式。可以从由较小的数据集(此处称为子集)组成的大型结构化数据集中提取指纹。结构化数据集通常以表格形式显示,并且其最低原子组成是一列数据。因此,数据库中的数据列是子集的一个示例。可以添加或删除完整的列,并且可以添加或删除包含所有列的行的集合。定义指纹的度量构成唯一且经过压缩的签名,该签名可被用于标识数据集并将其与从另一个数据集类似地导出的指纹作比较。具有匹配的指纹度量的数据集对、或具有匹配的指纹度量的数据子集,可以在统计上被断言为相同的数据集或相同的子集,或者它们具有相同的谱系。可以计算出可能被怀疑存在泄漏的数据子集中的数据集(或其相关子集)的统计指纹,此类文件在本文中被称为Wildfile,并将其与数据提供商的参考文件或与此相关的任何参考文件中的对应数据的统计指纹进行统计比较。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于链睿有限公司,未经链睿有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880064872.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:自然语言文本文件中的搜索项提取和优化
- 下一篇:测试轨道
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置