[发明专利]一种基于机器学习的布鲁氏菌病特征选择方法及系统在审
申请号: | 202211370275.5 | 申请日: | 2022-11-03 |
公开(公告)号: | CN115640519A | 公开(公告)日: | 2023-01-24 |
发明(设计)人: | 陈超;宋彪;许鸿蕾 | 申请(专利权)人: | 内蒙古卫数数据科技有限公司 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/2431;G06N20/00;G06F16/215;G06F18/213 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 符继超 |
地址: | 010010 内蒙古自治区呼和浩特市*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 布鲁氏菌 特征 选择 方法 系统 | ||
1.一种基于机器学习的布鲁氏菌病特征选择方法,其特征在于,包括以下步骤:
S1.获取布鲁氏菌病患者及非布鲁氏菌病个体的非空血常规数据并进行预处理,非空血常规数据包括n维特征,n大于1;
S2.基于预处理后的非空血常规数据集,利用递归特征消除RFE得出各特征的排序,并对所有特征赋予权重;
S3.基于预处理后的非空血常规数据集,利用随机森林模型进行布鲁氏菌病分类模型的构建与训练,对训练后的布鲁氏菌病分类模型利用SHAP进行可解释性分析,并根据各特征的重要性赋予其权重;
S4.分别计算各特征的总权重并降序排列,从首项起依次增加特征构成特征子集,分别用随机森林模型进行交叉验证和训练,得出对应的准确率,选择准确率最高的特征子集为最终的特征集。
2.根据权利要求1所述的一种基于机器学习的布鲁氏菌病特征选择方法,其特征在于,S1中预处理的具体内容为:
S11.对获取到的非空血常规数据,剔除包含缺失值的样本数据;
S12.对剩余无缺失值的数据按每个特征进行标准化处理,具体为:
其中,i为剩余无缺失值数据的n个特征中的任一特征,xi为特征i对应的样本数值,为特征i对应所有数据的均值,σi为特征i对应所有数据的标准差。
3.根据权利要求1所述的一种基于机器学习的布鲁氏菌病特征选择方法,其特征在于,S2中RFE采用的基模型为支持向量机SVC模型。
4.根据权利要求1所述的一种基于机器学习的布鲁氏菌病特征选择方法,其特征在于,S2的具体内容为:
S21.基于预处理后的非空血常规数据集或更新特征子集,计算分离超平面;
S22.利用排序准则计算特征得分;
S23.从特征子集中删除得分最小的特征,更新特征子集;
S24.重复S21、S22、S23,直到特征子集中的特征数为最小特征数;
S25.得到所有特征对应的特征排序值并按特征排序值赋予权重。
5.根据权利要求4所述的一种基于机器学习的布鲁氏菌病特征选择方法,其特征在于,S21具体内容为:
ωTxi+b=0
其中,ω为分类器的权重,b为偏移量,数据集T={(xi,yi),i=1,2,...N},xi∈RD,yi∈{0,1},为xi为各样本的特征向量,yi为各样本对应的标签,N为样本量,D为样本特征数;
求取特征空间上正确划分数据集且间隔最大的分离超平面:
即最小化对应的拉格朗日函数为:
其中,αi≥0为拉格朗日乘子,K(xi,xj)=xiTxj为线性核函数;
最小化L(ω,b,α)使得则ω的解为:
6.根据权利要求6所述的一种基于机器学习的布鲁氏菌病特征选择方法,其特征在于,S22的计算特征得分的具体公式为:
7.根据权利要求4所述的一种基于机器学习的布鲁氏菌病特征选择方法,其特征在于,S25中各特征权重αi按排序值j定义如下:
其中,n为预处理后非空血常规数据集的特征总数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古卫数数据科技有限公司,未经内蒙古卫数数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211370275.5/1.html,转载请声明来源钻瓜专利网。