[发明专利]基于MPI的云存储中数据消冗方法有效
| 申请号: | 201810774657.1 | 申请日: | 2018-07-16 |
| 公开(公告)号: | CN109189995B | 公开(公告)日: | 2021-09-21 |
| 发明(设计)人: | 刘嘉辉;朱宝森 | 申请(专利权)人: | 哈尔滨理工大学 |
| 主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/9032 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 mpi 存储 数据 方法 | ||
本发明提出了一种基于MPI的云存储中数据消冗方法。包括:1.客户端计算文件指纹签名并发送到云端主服务器进行文件级消冗;若该文件不存在则进行并行数据分块并将文件元数据和分块元数据以及数据分块发送到云端主服务器;2.云端主服务器收到文件指纹后在二级索引结构上进行检索从而判断是否存在该文件;接收文件元数据和所有分块元数据及数据分块并存储文件元数据;将分块元数据发送到云端从服务器节点在消冗矩阵上利用MPI进行分布式并行消冗并将数据分块发送到从服务器处理。本发明充分利用云存储系统中多核资源的特性,以及二级索引结构来进行高效检索数据,提高了数据消冗的计算性能,适合在云存储系统中处理各种类型的文件。
技术领域
本发明涉及分布式并行计算领域、信息检索和云计算领域,尤其涉及一种基于MPI(Message Passing Interface)的云存储中数据消冗方法。
背景技术
云存储是指通过集群应用、网格技术和分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。目前国际上的云环境主要有Amazon公司的AWS,Microsoft公司的Azure,Google公司的Google Cloud Platform;国内主要有阿里云、百度云、腾讯云、网易云等。
随着传统互联网技术进一步发展以及新兴的大数据技术、人工智能技术、物联网技术越来越趋于成熟,当今社会每天要处理的数据量已经达到了PB级别甚至达到了EB级别,传统的数据存储技术已经远远不能满足现实世界的需求,因此可以将这些数据存储到云环境中。但是,在公有云中存在大量存储数据的冗余,即文件或存储空间存在重复的数据,因此,在公有云环境中存储数据应尽量进行数据消冗处理,以便节省存储和网络空间资源,提高存取性能和网络带宽,尽量减少数据存储和管理的成本。公有云存储系统中数据消冗的应用列举如下。
案例1,某企业要进行年终数据汇总分布存储。公司中的各个部门将数据报表整理完毕之后形成公司在该年的总报表上传到云环境中进行共享。在云存储系统中,首先要进行检索是否存在重复数据,从而对已存储过的数据进行消冗处理,如果已存储数据文件则直接增加该数据的引用次数,否则,将该数据存储到云环境中来提高存取性能。当该公司需要数据的时候,可直接在云环境中进行高效地检索和下载,分布在不同地区的子公司可以及时获得所需的文件和数据资源达到一致性。
案例2,某公司要开展企业内部的视频会议。该视频会议中的场景主要是公司的背景和所有职工。那么在视频会议中就会有大量的场景是重复的内容,因为场景在会议中一般不会改变。视频会议完毕后,将该会议存储到公有云环境中进行备份时云存储服务器就要先对会议的视频数据进行消冗之后进行存储,这样可以节省存储空间,增加共享资源的下载速度。
案例3,某气象部门通过物联网将采集到的数据信息实时地存储到云环境中,以便于后期对气象数据进行分析和挖掘。由于采集到的气象数据存在大量的重复性,例如:在一段时间内大量存在雨云数据或者低气压数据,因此,在将这些气象数据存储到云存储服务器之前先要进行数据消冗处理,之后再将这些数据进行存储,这样可以尽量占用更少的网络带宽资源,减少数据存储和数据维护的成本。
案例4,人类基因图谱是生物医学工程的核心数据,是进行各种基因比对、基因变异等研究的关键,因此,数据消冗对于大量的基因图谱研究是一种非常有效的方法。通过数据消冗可以快速发现基因位和片段的变化。
云存储系统中的云端服务器需要进行数据的检索。传统的数据检索方案有哈希表,采用多种方法来解决哈希碰撞问题。这种检索方案对于海量数据进行检索的效率不高,主要原因在于链表的遍历相对需要更多时间。因此,需要一个数据检索高效而且又能够有效解决哈希碰撞的索引结构。这是数据检索中的一个核心的问题。
云端从服务器slaver使用布隆过滤(Bloom Filter)矩阵进行全局数据消冗。布隆过滤器能够加快数据的检索速度,但是存在误判,因此发生误判的从服务器节点需要上述高效的索引结构进行检索从而进行全局消冗处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810774657.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





