[发明专利]一种基于访问热度的数据迁移部署方法有效
申请号: | 201910227339.8 | 申请日: | 2019-03-25 |
公开(公告)号: | CN110008199B | 公开(公告)日: | 2023-02-14 |
发明(设计)人: | 杨灿;刘宇 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/28;G06F9/50 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 王东东 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 访问 热度 数据 迁移 部署 方法 | ||
1.一种基于访问热度的数据迁移部署方法,其特征在于,包括:
S1在分布式平台中获取待迁移数据集的访问日志数据集,并指定待迁移数据集的切分段数及在分布式平台上的部署更新周期,设定n个在该数据集中最关注的访问字段;
S2通过预测算法对下一时段的访问量分布进行预测,得到n个字段的总访问次数排序;
S3根据得到的访问次数排序,通过基于日志的访问热度负载均衡数据切分算法,对访问次数最大的列重新划分数据区域;
S4根据重新划分的数据区域对待迁移数据集进行切分,并根据切分结果更新数据集在分布式平台的部署;
所述S2还包括判断下一时段的访问量分布与前一段访问量分布是否相同,如果相同,则用户指定日志统计的时间周期,通过原始数据切分算法对n个字段划分数据区域;
统计指定时间周期内的n个字段在各自的数据区域的访问次数;
将访问次数存储在一张访问详情表中,进一步得到n个字段在指定统计时间周期内的总访问次数排序;
所述S2还包括判断下一时段的访问量分布与前一段访问量分布是否相同,如果不同,则用户指定日志预测时长,根据预测时长内的日志数据,通过预测算法预测下一个预测时长内的n个字段的访问量分布,生成访问详情表;
根据访问详情表中的数据得到n个字段的总问次数排序;
所述S3中基于日志访问热度负载均衡数据切分算法,具体为:
S3.1设在一个统计时间周期内访问次数最高的字段列为Hot_Col,访问次数为Hits,数据集被切分成N个区间,将访问次数最高的字段列的访问次数均匀分配给N个区间,每个区间的平均访问量为Hitsarvg;Hot_Col列数据总个数为valnum;
S3.2设vali为Hot_col列中第i个值,则落在vali上的访问次数为:
其中,i=0,1,2,...,valnum-1;
S3.3统计求解访问次数最高的字段列的访问次数:
数据集被切分成N个区间时,每个区间的平均访问量为
S3.4顺序搜索:在i=0,1,2,...,Valnum-1上求解满足下式的c(x)个数组成的区间:
这里x=0,1,...,N-1;c(x)为区间内数的个数;
满足c(x)值,其起始和终止位置为求解的数据区间的切分边界,且有
kx+1-kx=c(x)
kx,kx+1为数据区间的起始边界和终止边界,并且为该列中数的绝对位置索引,则:
且:
S3.5根据上述步骤求得各个区间的划分边界,对数据集进行切分;
所述S4中根据切分结果更新数据集在分布式平台的部署,在部署过程中的关键元素为十一元组,元组定义及元素约束内容如下:
Component={DataSet,DataSetAccessLog,Durationpredict,n,LogStatisticalTime,
SegmentNum,Ri,Cj,RiCj(tk),NLogStatisticalRi,Deploy_cycle}
(1)DataSet表示用户待迁移的数据集,其定义为一个三元组:DataSet={DScolNum,DScolType,DScolContent};
其中:
(a)DScolNum表示数据集包含的字段个数,DScolNum≥2;
(b)DScolType表示数据集中包含的数据类型,取值包括以下:数值数据类型,字符数据类型,二进制数据类型,日期和时间数据类型,Unicode数据类型,货币数据类型及特殊数据类型;
其中除数值数据类型必须包含外,其他字段类型均可选择性包含;
(c)DScolContent表示数据集中包含的字段内容信息;
(2)DataSetAccessLog表示DataSet的访问日志数据集,其可以定义为一个三元组:DataSetAccessLog={DSALcolNum,DSALcolType,DSALcolContent}
其中:
(a)DSALcolNum表示数据集包含的字段个数,DSALcolNum≥3;
(b)DSALcolType表示数据集中包含的数据类型,取值必须包含如下:
i.日期和时间数据类型
ii.字符数据类型
(c)DSALcolContent表示数据集包含的字段内容信息,取值必须包含如下:访问时间
i.访问字段
ii.访问字段具体值
(3)DurationPredict表示用户指定的预测时长,其中,预测时长单位可为年、季度、月、周、天;
(4)n表示用户指定的DataSet中最关注的访问字段的个数,且n≥2;
(5)LogStatisticalTime表示用户指定的日志统计时间周期,其中,时间周期单位可为年、季度、月、周、天;统计单位可为天、小时、分钟;
根据用户指定的时间周期单位以及统计单位,可换算出该时间周期内的统计单位总数为LogStatisticalTime_num;
(6)SegmentNum表示用户指定的数据集切分段数,其中SegmentNum>0,默认值为1;
(7)Ri表示针对数据集DataSet使用原始数据切分算法为其划分出的第i个数据区域,其中i∈{1,2,...,SeentNum};
(8)Cj表示用户指定的第j个访问字段,所述访问字段的字段类型必须为数值数据类型,且j∈{1,2,...,n};
(9)RiCj(tk)表示k个统计单位时长内落在用户指定的第j个高频访问字段的第i个数据区域的访问次数,其中i∈{1,2,...,SegmentNum},j∈{1,2,…,n},k∈{1,2,…,LogStatisticalTime_num};
(10)NLogstatisticalTimeRi表示针对DataSet数据集在LogStatisticalTime周期内的访问热度情况,使用基于日志的访问热度负载均衡数据切分算法为其重新划分出的第i个数据区域,其中i∈{1,2,...,SegmentNum};
(11)Deploy_cycle表示用户指定的DataSet数据集的部署更新周期,周期单位可为年、季度、月、周、天。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910227339.8/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置