[发明专利]一种用于确定大数据存储系统的数据平衡性的方法及系统在审
| 申请号: | 201811005484.3 | 申请日: | 2018-08-30 |
| 公开(公告)号: | CN109271101A | 公开(公告)日: | 2019-01-25 |
| 发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 杜广香 |
| 主分类号: | G06F3/06 | 分类号: | G06F3/06 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 252659 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 存储系统 大数据 存储设备 数据平衡 访问信息 平衡系数 数据访问操作 不平衡状态 统计文件 系统平衡 数据项 阈值时 存储 统计 | ||
1.一种用于确定大数据存储系统的数据平衡性的方法,所述方法包括:
响应于接收到用于确定大数据存储系统的数据平衡性的请求,将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备,以由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度,从多个临时数据项中选择内容匹配度大于匹配阈值的至少一个选定的临时数据项,将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方,并且在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求;
在确定所述大数据存储系统内的所有存储设备中均没有正在运行的数据访问操作时,获取所述大数据存储系统内多个存储设备中每个存储设备的运行日志文件,并且基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息,根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件;其中所述访问信息统计文件包括数据项统计表,所述数据项统计表包括多个数据项记录,其中每个数据项记录的内容为6元组<数据项的标识符、被访问次数、统计起始时间、统计结束时间、存储尺寸、存储起始时间>;
对每个存储设备的访问信息统计文件进行解析,将当前的统计时间区间内每个存储设备的所有数据项中被访问次数小于低频次数阈值的数据项确定为低频数据项,确定每个存储设备所包括的低频数据项的低频项数量;将多个存储设备中低频项数量大于低频设备阈值的存储设备确定为低频存储设备并确定大数据存储系统中低频存储设备的数量;将低频项数量小于或等于低频设备阈值的存储设备确定为非低频存储设备并确定大数据存储系统中非低频存储设备的数量;
基于每个低频存储设备的访问信息统计文件,确定每个低频存储设备的每个低频数据项的存储尺寸和被访问次数并且确定每个低频存储设备的低频数据项的低频项数量,基于每个低频存储设备的访问信息统计文件确定每个低频存储设备各自的所有数据项的总被访问次数;根据每个低频存储设备的标识符和大数据存储系统的系统记录设备中的设备描述信息确定每个低频存储设备各自的总存储容量,
基于每个非低频存储设备的访问信息统计文件,确定每个非低频存储设备的每个低频数据项的存储尺寸和被访问次数并且确定每个非低频存储设备的低频数据项的低频项数量,基于每个非低频存储设备的访问信息统计文件确定每个非低频存储设备各自的所有数据项的总被访问次数;根据每个非低频存储设备的标识符和大数据存储系统的系统记录设备中的设备描述信息确定每个非低频存储设备各自的总存储容量;
计算大数据存储系统的平衡系数:
其中,DE为大数据存储系统的平衡系数,
其中,DLB是大数据存储系统内低频存储设备的平衡系数;
LTNi为第i个低频存储设备的低频数据项的低频项数量,LDN为大数据存储系统中低频存储设备的数量;LTSij为第i个低频存储设备内第j个低频数据项的存储尺寸,LSi为第i个低频存储设备的所有低频数据项的总存储尺寸,LCi为第i个低频存储设备的总存储容量,
LTAij为第i个低频存储设备内第j个低频数据项的被访问次数,LAi为第i个低频存储设备的所有低频数据项的总被访问次数,LTi为第i个低频存储设备的所有数据项的总被访问次数;
其中i为自然数,LDN≥i≥1并且j为自然数,LTNi≥j≥1,其中LDN≥100,并且LTNi≥100;
其中,NDLB是大数据存储系统内非低频存储设备的平衡系数;
NLTNm为第m个非低频存储设备的低频数据项的低频项数量,NLDN为大数据存储系统中非低频存储设备的数量;NLTSmn为第m个非低频存储设备内第n个低频数据项的存储尺寸,NLSm为第m个非低频存储设备的所有低频数据项的总存储尺寸,NLCm为第m个非低频存储设备的总存储容量,
NLTAmn为第m个非低频存储设备内第n个低频数据项的被访问次数,NLAm为第m个非低频存储设备的所有低频数据项的总被访问次数,NLTm为第m个非低频存储设备的所有数据项的总被访问次数;
其中m为自然数,NLDN≥m≥1并且n为自然数,NLTNm≥n≥1,其中NLDN≥100并且NLTNm≥50;以及
当大数据存储系统的平衡系数DE大于系统平衡系数阈值时,确定所述大数据存储系统的数据平衡性处于不平衡状态。。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杜广香,未经杜广香许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811005484.3/1.html,转载请声明来源钻瓜专利网。





