[发明专利]大型结构化数据集的统计指纹识别在审

专利信息
申请号: 201880064872.0 申请日: 2018-09-07
公开(公告)号: CN111201531A 公开(公告)日: 2020-05-26
发明(设计)人: 亚瑟·科尔曼;梁芷苓·克里斯蒂娜;马丁·罗斯;C·鲍尔斯;N·尚卡尔 申请(专利权)人: 链睿有限公司
主分类号: G06F21/60 分类号: G06F21/60
代理公司: 上海专利商标事务所有限公司 31100 代理人: 亓云
地址: 美国加利*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 大型 结构 数据 统计 指纹识别
【说明书】:

一种用于结构化数据集的统计指纹识别的系统和方法通过将结构化数据库划分为数据子集组开始。这些子集是基于数据的结构来创建的;例如,通过将每一列指定为子集,可以将按列和行描绘的数据分解为子集。从每个子集中导出指纹,然后将针对每个子集的指纹组合,以便创建针对数据集的整体指纹。通过将此过程应用于未知来源的“野生文件(wild file)”,并将结果与数据所有者的文件作比较,可以确定是否从数据所有者错误地获取了野生文件中的数据。

技术领域

发明的领域是数据水印和指纹识别,尤其是结构化大数据集的统计指纹识别。

背景技术

专有数据文件(例如,.csv、.sql、.txt等类型的文件)或以JSON或XML数据提要(feed)中的文本数据的有意或无意泄漏代表巨大的损坏潜在可能。现有的解决方案可用于防止当数据驻留在公司防火墙后时的丢失。像安全HTTP或SSL协议之类的解决方案防止当数据(无论是作为文件还是作为数据提要)离开防火墙并穿越因特网到达合法接收者(此处描述为“受信任的第三方”或TTP)时丢失的风险。存在其他解决方案以当在原始源(数据所有者)的防火墙之外使用文件时声明并记录文件所有权。这些数据水印和指纹识别解决方案是合需的,因为在盗窃或其他损失的情况下它们提供了所有权证据。

数据水印和指纹识别构成用于证明数据文件所有权的两类过程。这两种办法并不总是相互排斥的,但是获得一般区别。文件水印包括对数据进行更改(通常较小),以创建对于用户难以识别的唯一模式。根据指定规则更改数字(连续)变量的最低有效位是一个简单的示例。创建数据文件的指纹不涉及对数据的更改;相反,数据的特性被用于创建可以在事实之后被识别的签名。一个简单的指纹可能基于文件中变量的统计特性。指纹在技术上是水印的子集或替代,因此指纹方法也被称为基于内容的零水印技术。它们基于数据文件的内容,并且不涉及任何数据更改,因此引用了“零水印”。

数据指纹识别是跨各种文件格式(包括文本文档、音频和视频)的科学工作的已知领域。数据库的数据指纹识别也是已知的工作领域。指纹识别尤其是学术研究中的活跃领域,像斯坦福大学等机构使用基于n元模型(n-gram)的指纹识别办法在文档指纹识别研究中发表了大量工作。在斯坦福大学的研究中,该技术涉及将文本和文档转换为较短的文本字符串,该文本字符串随后可被用作较大文本或文档的唯一标识符。这项工作也已经扩展到包含个人身份信息(PII)的形式,其中该算法可以编码和检索诸如社会安全号码之类的敏感信息。通过在网络文件传输期间检测敏感信息,增强了文档安全性。还已经报告了许多因域而异的扩展。在包含生物学数据的文档中,数据指纹识别的概率方法已被用于文件比较。

尽管在该领域已经进行了工作,但是仍然需要改进文档指纹识别,特别是对于其中文本高度组织化的大型基于文本的数据集(诸如,数据库、数据提要等)而言。

本背景部分中提到的参考不被承认是相对于本发明的现有技术。

发明内容

本发明使用规范统计方法来定义数据集中的数据的内部结构,以提取存在的描述性统计模式。定义大型数据集或其组成子集的统计性质在此被称为统计指纹识别。统计指纹识别是统计上建立数据集的身份的方式。将统计身份建立为唯一表征该数据集的指纹度量集。具有不同固有特性的数据集将具有不同的统计模式。可以从由较小的数据集(此处称为子集)组成的大型结构化数据集中提取指纹。结构化数据集通常以表格形式显示,并且其最低原子组成是一列数据。因此,数据库中的数据列是子集的一个示例。可以添加或删除完整的列,并且可以添加或删除包含所有列的行的集合。定义指纹的度量构成唯一且经过压缩的签名,该签名可被用于标识数据集并将其与从另一个数据集类似地导出的指纹作比较。具有匹配的指纹度量的数据集对、或具有匹配的指纹度量的数据子集,可以在统计上被断言为相同的数据集或相同的子集,或者它们具有相同的谱系。可以计算出可能被怀疑存在泄漏的数据子集中的数据集(或其相关子集)的统计指纹,此类文件在本文中被称为Wildfile,并将其与数据提供商的参考文件或与此相关的任何参考文件中的对应数据的统计指纹进行统计比较。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于链睿有限公司,未经链睿有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201880064872.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top