[发明专利]数据处理方法及装置有效
申请号: | 201810023927.5 | 申请日: | 2018-01-10 |
公开(公告)号: | CN108388406B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 邓钫元 | 申请(专利权)人: | 链家网(北京)科技有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;李相雨 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
本发明提供一种数据处理方法及装置,包括:接收用户端发送的读取请求,所述读取请求包括文件名;获取主存储节点上的存储信息表;根据所述文件名和存储信息表获得存储有对应所述文件名的文件副本的副本存储节点的位置信息和存储介质标签;根据所述位置信息和所述存储介质标签从对应的副本存储节点上调用文件副本。本发明实施例提供的一种数据处理方法及装置,通过接收用户端发送的文件名以及获取主存储节点上的存储信息表,并根据所述文件名和所述存储信息表获得存储有对应所述文件名的文件副本的副本存储节点的位置信息和存储介质标签,根据所述位置信息和所述存储介质标签从对应的副本存储节点上调用文件副本,做到存储合理,读取数据效率高。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法及装置。
背景技术
HDFS(Hadoop Distributed File System)是一种大数据分布式存储系统,它将任意大小的文件按照指定块大小(如256MB)分割成若干块,并且为了数据冗余备份,每个块有3(默认)个副本,HDFS将该文件的所有副本块随机分布到大量数据存储节点上,并在主存储节点上记录该文件的每个副本块存在哪个存储节点上。查询数据时从主存储节点获取该文件的所有副本块位置,再按照一定规则从存储节点上获取数据。
由于存放在HDFS中的数据使用频率不一样,对存储的要求也不一样,比如某些数据经常使用(热数据),希望访问速度快。某些数据很少使用(冷数据),希望存储的成本低。目前业内提供多种类型存储介质,如固态硬盘(SSD)速度高,价格贵。磁带速度慢,价格低。普通硬盘价格和速度适中。
但目前HDFS的存储节点,不能区分存储介质类型,所有数据会随机放到各个存储节点上。即使部分存储节点上部署SSD,也无法保证经常访问的数据放到有SSD的存储节点上,无法加速热数据性能。同理,部分存储节点部署磁带,也不能使很少使用的数据到磁带的存储节点上,无法减少冷数据成本。
发明内容
本发明提供一种数据处理方法及装置,用于解决现有技术中无法将数据存储在合适的存储节点上的问题。
第一方面,本发明实施例提供一种数据处理方法,包括:
接收用户端发送的读取请求,所述读取请求包括文件名;
获取主存储节点上的存储信息表;
根据所述文件名和所述存储信息表获得存储有对应所述文件名的文件副本的副本存储节点的位置信息和存储介质标签;
根据所述位置信息和所述存储介质标签从对应的副本存储节点上调用文件副本。
可选地,在接收用户端发送的读取请求之前,还包括:
接收用户端发送的存储请求,所述存储请求包括文件副本、文件名和存储条件;
获取所有副本存储节点的存储介质标签;
根据所述存储条件将文件副本发送给副本存储节点进行存储,并将存储信息发送给主存储节点记录在存储信息表上。
可选地,所述根据所述位置信息和所述存储介质标签从对应的副本存储节点上调用文件副本,包括:
若存在不同存储介质标签的多个副本存储节点,则根据所述位置信息、所述存储介质标签和预设的存储介质优先级确定唯一的副本存储节点;
从确定后的副本存储节点上调用文件副本。
可选地,所述根据所述位置信息和所述存储介质标签从对应的副本存储节点上调用文件副本,包括:
若存在相同存储介质标签的多个副本存储节点,则根据位置信息任选其中一个副本存储节点;
从选取后的副本存储节点上调用文件副本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于链家网(北京)科技有限公司,未经链家网(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810023927.5/2.html,转载请声明来源钻瓜专利网。