[发明专利]一种大数据索引方法及系统有效

专利信息
申请号: 201310146076.0 申请日: 2013-04-24
公开(公告)号: CN103198150A 公开(公告)日: 2013-07-10
发明(设计)人: 张勇;王津;高旸;邢春晓 申请(专利权)人: 清华大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 王莹
地址: 100084 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 索引 方法 系统
【说明书】:

技术领域

发明涉及大数据背景下数据库索引技术领域,尤其涉及一种大数据索引方法及系统。

背景技术

在信息化的过程中,个人和企业的数据量都在迅速增长。由于社交网络,电子商务和物联网技术的兴起,各种移动终端,传感器和传统设备时刻在产生着各种非结构化数据。2011年麦肯锡公司全球研究所发表研究报告指出,目前数据已渗透到各行业和业务职能领域,逐渐成为人类社会中重要的生产要素。截止2011年底,全球的数据总量达到1.9ZB(1ZB=1×1012GB),到2015年将达到8ZB,到2020年将达到大约35ZB。面对数量巨大并且增长迅猛的数据,高效的管理和分析数据已经成为当前信息管理最关注的问题之一。针对这一问题,人们提出了“大数据”的概念。与传统的海量数据不同,大数据除了有巨大的数据规模外,还有着复杂的数据类型和数据关联度。IBM将大数据的特点概括为:海量化(Volume),快速化(Velocity)以及多样化(Variety)。因此,传统的方法和技术已不适用于大数据的管理和分析。

支持时间连续性的大数据存储是一个非常复杂的问题。为实现对数据的实时分析,必须实现数据的高效插入,并对查询请求做出实时响应。为达到上述目的,需要对持续到来的数据流建立动态索引。在经过实时分析后,暂存的数据需要被迁移到数据仓库进行进一步的数据分析。因此,所建立的索引还需要支持高效率的批量删除操作。LSM-Tree是一种支持数据库写优化的高效索引框架,在当前主流的NoSQL数据库系统中得到了广泛应用。为实现上述目的,本发明提出了一种大数据索引方法及系统。

发明内容

(一)技术问题

大数据在经过实时分析后,暂存的数据需要被迁移到数据仓库进行进一步的数据分析,而根据现有技术建立的索引不支持高效率的批量删除操作,降低了数据的插入以及查询效率,本发明提供一种大数据索引方法及系统以实现数据的批量删除操作,提高大数据的插入及查询效率。

(二)技术方案

为解决上述技术问题,本发明提供了一种大数据索引方法,包括以下步骤:

S1、将与数据中心服务器单元相连的所有终端设备产生的数据送入NoSQL数据库单元;

S2、基于LSM-Tree搜索引擎单元的框架,以Skip List为内存组件,以COLA为外存组件,并在内存中添加Delete Filter模块1和Delete Filter模块2用于支持外存组件上的删除操作,建立pLSM索引引擎单元;

S3、用户执行索引操作,包括插入操作、查询操作、删除操作和更新操作。

所述外存组件包括第一外存组件第二外存组件。

所述Delete Filter模块包括:Delete Filter模块1,结合pLSM索引引擎单元内存中的Bloom Filter模块1用于支持发生在第一外存组件上的删除操作;Delete Filter模块2,结合pLSM索引引擎单元内存中的Bloom Filter模块2用于支持发生在第二外存组件上的删除操作。

所述查询操作包括:

步骤a:在pLSM索引引擎单元内存的内存组件中进行查询,若所查询内容在内存组件中,则返回查询结果;否则进入步骤b;

步骤b:判断所查询内容是否满足既映射在第一外存组件对应的Bloom Filter模块1中且没有映射在第一外存组件对应的Delete Filter模块1中,则在第一外存组件中按照COLA模块的查询算法进行查询并返回查询结果,否则查询第二外存组件;

步骤c:若所查询内容映射在第二外存组件对应的Bloom Filter模块2中且没有映射在第二外存组件对应的Delete Filter模块2中,则在第二外存组件中按照COLA的查询算法进行查询并返回结果,否则查询失败。

所述删除操作包括:

确定所要删除的记录所处的组件,若该记录位于内存组件中,则直接删除;若位于外存组件中,则首先在Delete Filter模块中标记该记录,然后在外存组件的COLA模块中将该记录标记为逻辑上已删除;检查该所涉及外存组件的空置率,若空置率超过给定阈值,则启动碎片整理操作。

所述碎片整理操作的步骤包括:

步骤a、根据外存组件中剩余的记录求出所要插入的最大层次;

步骤b、从第一层开始,把所有非空记录插入到该最大层次的空闲位置,直到最大层次填满为止;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310146076.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top