[发明专利]用于处理非结构化数字的基于内容的检索引擎在审

专利信息
申请号: 201480021662.5 申请日: 2014-04-27
公开(公告)号: CN105144200A 公开(公告)日: 2015-12-09
发明(设计)人: 哈罗德·特雷斯;琳恩·特雷斯;肖恩·赫雷拉 申请(专利权)人: 数据飞讯公司
主分类号: G06K9/34 分类号: G06K9/34
代理公司: 上海脱颖律师事务所 31259 代理人: 脱颖
地址: 美国加利*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 处理 结构 数字 基于 内容 检索 引擎
【说明书】:

背景技术

数字宇宙(DU)可被解释和/或定义为涵盖所收集、产生、处理、通信和存储的世界上所有数字数据的总和。DU的大小和生长速率以指数速率持续增长,到2020年DU的估计大小将增长到超过40泽字节。此数据的大部分由“非结构化数据”组成。非结构化数据以多种形式出现,包括:图像、视频、音频、通信、网络流量、来自各种传感器的数据(包括物联网和基于Web服务的物联网)、恶意软件、文本等等。

与适合行/列格式的结构化数据相反,非结构化数据通常存储在不透明容器中——例如,诸如原始二进制数据、压缩数据、加密数据,或者自由形式数据。不仅了解DU的大小和生长速率是重要的,而且了解数据的分布也是重要的,所述数据被估计为大约88%的视频和图像数据;10%的通信、传感器、音频和音乐数据;以及2%的文本。还估计到所述2%的文本DU中仅3-5%是目前编入索引并且制作为可由主要检索引擎(例如,Google、Bing、Yahoo、Ask、AOL等等)检索的。

互联网检索引擎和企业检索引擎是用于访问DU数据的存储以支持主要用途的主要机制,所述主要用途包括商务、商业、教育、政府、社区和机构,以及个人用途。经由基于文本的关键词和元数据标记进行文本检索是到目前为止最流行的检索DU数据的方法。上述方法只能做到这种程度,因为所述2%的(文本)DU中仅约3-5%是编入索引并且制作为可检索的。用元数据标记检索是有用的,但是因为并非所有非结构化数据具有与其相关联的元标记,所以可能希望具有可处理此类非结构化和无标记数据的技术。

通常,可以先使用手动作业(例如,众包、喜欢/不喜欢等等)来产生标记,然后才可由传统的检索引擎和数据库使用所述标记,此过程费时、昂贵并且覆盖范围有限。与文本元数据检索技术已经具有的价值一样,发现数据内容中和数据内容之间的链接、连接和关联的能力可具有更高价值。社交媒体公司(例如,Facebook、Linkedln、Twitter等等)的产生是此技术的例子。额外使用跨数据集和数据类型的链接还允许对数据应用深度分析以提取非显而易见的关系、模式和趋势(例如,广告、推荐引擎、商业智能、度量、网络流量分析等等)。因此,可能希望使非结构化DU的内容为可检索的。

发明内容

下文呈现了对所述创新的简要总结,以便提供对本文所描述的一些方面的基本理解。此发明内容并非是对所要求保护的主题的广泛概述。本发明内容既非旨在识别所要求保护的主题的关键或者决定性要素,也非旨在详细描述所述创新主题的范围。本发明内容的唯一目的是以简化形式呈现所要求保护主题的一些概念,以作为稍后提供的更详细描述的序言。

公开了用于接收和索引原生数字数据、产生用于后续存储的签名矢量,以及在数字数据的数据库中检索此类原生数字数据的系统及方法。可将原生数字数据转换成相关的转换数据集。此类转换可包括类熵转换和/或空间频率转换。随后可将所述原生和相关的转换数据集划分成谱分量,并且那些谱分量可具有应用于其以产生签名矢量的统计矩。还公开了用于处理非图像数字数据的其他系统和方法。可将非图像数字数据转换成振幅对照时间的数据集,并且随后可将谱图应用于此类数据集。随后可如所描述地处理此类转换数据集。

在一个实施例中,公开了一种用于检索数字数据的系统,所述系统包括:索引模块,所述索引模块能够接收原生数字数据集,所述原生数字数据集包括谱分布;签名生成模块,所述签名生成模块能够根据所述原生数字数据集产生一个或多个转换数据集以及根据所述原生数字数据集和所述一个或多个转换数据集产生签名矢量,所述签名矢量包括针对所述原生数字数据集和所述一个或多个转换数据集中的每一者的谱分解和统计分解;TOC数据库,所述TOC数据库能够存储所述签名矢量;以及检索模块,所述检索模块能够接收输入签名矢量并且返回大体上接近于所述输入签名矢量的一组签名矢量,其中所述输入签名矢量表示将利用所述TOC数据库检索的所关注对象。

在另一实施例中,公开了一种用于根据原生数字数据集产生签名矢量的方法,所述方法包括:接收原生数字数据集;应用熵转换至所述原生数字数据集以产生熵数据集;应用空间频率转换至所述原生数字数据集以产生空间频率数据集;将所述原生数字数据集、所述熵数据集和所述空间频率数据集中的每一者划分成一组谱分量数据集;以及应用一组统计矩至所述谱分量数据集以产生用于所述原生数字数据集的签名矢量。

当结合提供在此申请案中的附图阅读时,在以下实施方式中提供了本发明系统的其他特征和方面。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于数据飞讯公司,未经数据飞讯公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201480021662.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top