[发明专利]基于回归的高性能应用I/O性能模型训练与分析方法在审
申请号: | 202310239137.1 | 申请日: | 2023-03-13 |
公开(公告)号: | CN116483686A | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 房鼎益;张成;汤战勇;路亚梦;王金秋;刘章玉 | 申请(专利权)人: | 西北大学 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06F18/27;G06F18/214;G06F18/2411 |
代理公司: | 西安众和至成知识产权代理事务所(普通合伙) 61249 | 代理人: | 强宏超 |
地址: | 710069 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 回归 性能 应用 模型 训练 分析 方法 | ||
1.基于回归的高性能应用I/O性能模型训练与分析方法,其特征在于包括:
特征的设计:
考虑对影响高性能应用I/O性能的因素进行特征设计,一方面配置的I/O栈参数为特征,另一方面通过使用Darshan工具,对应用程序的I/O访问信息进行收集进而提取I/O行为相关特征为特征;
基于上述设计的特征对在不同I/O参数配置下运行收集的数据进行标准化处理,对于一个特征向量X=(x1,x2,…,xn)以log10为底的对数变换特征向量为X′=(log10(x1+1),log10(x2+1)…,log10(xn+1)),对其中I/O栈参数特征值采用log10对数函数变换的方式,并在原特征名前加上LOG10构建为新特征;使用总和归一标准化后的转换特征对I/O行为特征采用总和归一标准化的方式,并在原特征名后添加PERC构建为新特征名;
收集数据时采样算法的选择分析:
考虑对样本空间采样均匀的方法收集数据集训练模型,考虑对比拟蒙特卡洛采样中的Sobol采样和Halton采样、LHS拉丁超立方采样和随机采样数据点在样本空间中的分布情况,分别使用这四种采样算法在二维空间单位平方面积上进行采样,发现以使用LHS算法采样的数据点分布最均衡;
使用IOR基准程序收集在不同配置下的应用运行数据来训练性能模型并进行对比实验验证收集的数据集数据质量,使用XGBoost模型进行训练,在对读和写性能的预测上都是使用LHS拉丁超立方采样收集的数据集训练的模型的预测精度最高,选择LHS拉丁超立方采样作为收集数据时采样算法;
回归模型的选择和分析:
使用线性回归、随机森林、KNN回归、MLP回归、SVM回归和XGBoost算法进行模型的训练,使用IOR收集数据训练不同回归算法性能模型,预测结果显示XGBoost算法和和随机森林算法效果好,可以选择使用XGBoost算法或随机森林算法作为回归模型算法;
模型特征重要性分析:
使用PFI和SHAP分析技术对模型进行分析,选择在XGBoost模型训练中特征的重要性排序情况并分析其中有重要影响的特征变化对应用程序带来的影响,得到影响高性能应用I/O性能的特征。
2.如权利要求1所述的基于回归的高性能应用I/O性能模型训练与分析方法,其特征在于,所述I/O栈参数特征设计如下表:
3.如权利要求1所述的基于回归的高性能应用I/O性能模型训练与分析方法,其特征在于,所I/O行为特征设计如下表:
4.如权利要求1所述的基于回归的高性能应用I/O性能模型训练与分析方法,其特征在于,收集数据时采样算法的选择分析时,使用IOR基准程序收集在不同配置下的应用运行数据来训练性能模型并进行对比实验,对比实验具体设计如下表所示:
5.如权利要求1所述的基于回归的高性能应用I/O性能模型训练与分析方法,其特征在于,回归模型的选择和分析时,使用IOR收集数据训练不同回归算法性能模型,具体相关参数配置如下表所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310239137.1/1.html,转载请声明来源钻瓜专利网。