[发明专利]一种在大数据存储系统中进行数据混合存储的方法及系统在审
| 申请号: | 201811006477.5 | 申请日: | 2018-08-30 |
| 公开(公告)号: | CN109271103A | 公开(公告)日: | 2019-01-25 |
| 发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 杜广香 |
| 主分类号: | G06F3/06 | 分类号: | G06F3/06 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 252659 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种在大数据存储系统中进行数据混合存储的方法及系统,其中方法包括:根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件;将多个存储设备中低频项数量大于低频设备阈值的存储设备确定为低频存储设备并确定大数据存储系统中低频存储设备的数量;当大数据存储系统中低频存储设备的数量大于系统预警阈值时,确定复制数据项集合并将复制数据项集合传送给所述多个存储设备中的每个存储设备,并促使每个存储设备进行处理,以实现数据混合存储。 | ||
| 搜索关键词: | 存储设备 存储系统 大数据 数据混合 中低频 存储 数据项集合 访问信息 复制 低频设备 统计文件 数据项 阈值时 传送 预警 统计 | ||
【主权项】:
1.一种在大数据存储系统中进行数据混合存储的方法,所述方法包括:基于当前的统计时间区间和大数据存储系统内多个存储设备中每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息,根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件;其中所述访问信息统计文件包括数据项统计表,所述数据项统计表包括多个数据项记录,其中每个数据项记录的内容为6元组<数据项的标识符、被访问次数、统计起始时间、统计结束时间、存储尺寸、存储起始时间>;对每个存储设备的访问信息统计文件进行解析,将当前的统计时间区间内每个存储设备的所有数据项中被访问次数小于低频次数阈值Lthreshod的数据项确定为低频数据项,确定每个存储设备所包括的低频数据项的低频项数量;将多个存储设备中低频项数量大于低频设备阈值的存储设备确定为低频存储设备并确定大数据存储系统中低频存储设备的数量;基于每个存储设备的访问信息统计文件确定每个存储设备所包括的所有数据项的数据项数量TNi;其中i为自然数并且DN≥i≥1,其中DN为大数据存储系统中所有存储设备的总数量;当大数据存储系统中低频存储设备的数量大于系统预警阈值时,获取大数据存储系统的系统缓冲设备内的匹配统计文件,基于所述匹配统计文件确定系统缓冲设备内临时数据项集合中每个临时数据项在当前的统计时间区间内进行多次内容匹配时的内容匹配度的算术和,基于每个临时数据项在当前的统计时间区间内的内容匹配度的算术和的降序顺序对每个临时数据项进行排序,以生成第一排序列表,根据大数据存储系统的系统记录设备中的设备描述信息确定大数据存储系统中所有存储设备的总数量DN,在所述第一排序列表中从内容匹配度的算术和最大的临时数据项开始并且按照内容匹配度的算术和的降序顺序从所述第一排序列表选择2×DN个临时数据项,将所述2×DN个临时数据项组成第一数据项集合;其中临时数据项集合中的临时数据项的总数大于10×DN;按照被访问次数的降序顺序对每个存储设备中各自的所有数据项进行排序,以生成多个第二排序列表,根据每个存储设备所包括的所有数据项的数据项数量TNi从每个存储设备的第二排序列表选择多个数据项:其中,在第i个存储设备的第二排序列表中,从被访问次数最大的数据项开始并且按照被访问次数的降序顺序选择
个数据项;将在每个存储设备的所有数据项中分别选择的
个数据项组成第二数据项集合,其中第二数据项集合中包括
个数据项;基于每个存储设备的访问信息统计文件确定当前的统计时间区间内大数据存储系统的所有数据项的被访问次数的系统总数,基于大数据存储系统的所有数据项的被访问次数的系统总数TAtotal和大数据存储系统中所有存储设备的总数量DN确定每个存储设备的数据项的平均被访问次数TAaverage,其中TAaverage=TAtotal/DN;确定第一数据项集合中每个临时数据项在当前的统计时间区间内进行多次内容匹配时的平均内容匹配度,将第一数据项集合中每个临时数据项的平均内容匹配度和TAaverage的乘积的2倍作为每个临时数据项的被访问次数;其中第一数据项集合中每个临时数据项在当前的统计时间区间内进行多次内容匹配时的平均内容匹配度为临时数据项在当前的统计时间区间内进行多次内容匹配时的内容匹配度的算术和与多次内容匹配的次数的比值;将第一数据项集合和第二数据项集合进行合并以生成第三数据项集合,将第一数据项集合中的每个临时数据项作为复制数据项并且将第二数据项集合中的每个数据项作为复制数据项,从第三数据项集合的所有复制数据项中选择被访问次数最大的100个数据项,由所选择的被访问次数最大的100个数据项组成复制数据项集合;将所述复制数据项集合传送给所述多个存储设备中的每个存储设备,并促使每个存储设备进行处理,以实现数据混合存储:接收所述复制数据项集合并且将所述复制数据项集合中的所有复制数据项进行存储;对所存储的所有数据项中相同的数据项进行去重处理,基于(自身的)访问信息统计文件确定经过去重处理的所有数据项中每个数据项在当前的统计时间区间内的预定时间段内的被访问次数;根据每个数据项在预定时间段内的被访问次数对所有数据项进行分组以生成预定分组数量的多个内容组,以使得每个内容组中所有数据项的总被访问次数之间的标准差小于平衡阈值;将存储空间划分为与所包括的多个内容组的数量相同并且存储容量与相应的内容组相适配的多个存储区域,为每个内容组分配相应的存储区域并且将每个内容组中的所有数据项移动到相应的存储区域内。或者,将所述复制数据项集合传送给所述多个存储设备中的每个存储设备,并促使每个存储设备进行处理,以实现数据混合存储:接收所述复制数据项集合并且将所述复制数据项集合中的所有复制数据项进行存储;对所存储的所有数据项中相同的数据项进行去重处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杜广香,未经杜广香许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811006477.5/,转载请声明来源钻瓜专利网。





