[发明专利]一种生物医学关键属性选择方法在审
申请号: | 201710332543.7 | 申请日: | 2017-05-12 |
公开(公告)号: | CN107169284A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 罗森林;潘丽敏;张岳峰;胡雅娴 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生物医学 关键 属性 选择 方法 | ||
1.一种生物医学关键属性选择方法,其特征在于,所述方法包括以下步骤:
步骤1,数据集S包含N个样本,M维影响2型糖尿病干预效果的待选属性,使用boruta算法对人群的干预效果进行拟合,得到影响干预效果的关键属性,以及待选属性的重要性排序;
步骤2,基于原始数据集S,根据人群的干预效果构建逻辑回归判别模型,使用逻辑回归算法对人群的干预效果进行拟合,得到对干预效果具有显著影响的属性;
步骤3,基于步骤1中boruta算法得到对干预效果具有重要影响的属性,步骤2中逻辑回归算法得到对干预效果具有显著影响的属性,结合专家意见,采用交集归类的方法,得到影响干预效果的关键属性。
2.根据权利要求1所述的方法,其特征在于,所述使用boruta算法选择重要属性的步骤具体包括:
步骤2.1,创建数据集S的副本属性,并进行重排得到重组数据集S,增加给定数据集的随机性;
步骤2.2,构建树的个数为n(0<n N)在数据集S中,采用bootstrap方式有放回地随机抽取N个新的样本集,每个样本集的数据量大约为2N/3,每个样本集被记录为Di(0<i n),没有被抽取的数据记录为袋外数据Oi(0<in),构建包含n棵树的随机森林模型;
步骤2.3,构建分类回归树,计算每个树对应的袋外数据均方误差,记为MSEi,则n棵树的原始袋外数据均方误差向量为[MSE1,MSE2,…,MSEn];
步骤2.4,基于步骤2.2得到的均方误差向量[MSE1,MSE2,…,MSEn],与对应属性计算得到的Z值,确定Z值最大的副本属性,同时筛选出比其值更大的属性作为重要属性,而对应其Z值小的属性标记为非重要属性,并从数据集中删除;
步骤2.5,重复以上步骤1.1至1.4,直到达到预设的终止条件;
步骤2.6,属性的均方误差代表属性的重要性,属性重要性排序靠前的属性,为对2型糖尿病干预效果具有重要影响的属性。
3.根据权利要求1所述的方法,其特征在于,使用逻辑回归算法选择显著属性的步骤具体包括:
步骤3.1,对M维待选属性进行归一化处理,计算方法为:
其中,是第i个样本第l维属性原始值,是第i个样本第l维属性的归一化值,和则分别是样本第l维属性的最大值和最小值;
步骤3.2,构建逻辑回归模型,采用最大似然估计方法计算各属性系数,回归方程如下:
f(x)=b0+b1x1+b2x2+...+bMxM
其中,xl(0<l≤M)表示第l维属性,M为属性的维度,bl(0<l≤M)表示逻辑回归模型中各属性的权重;
步骤3.3,采用AIC准则进行逐步回归,得到AIC最小时的属性组合,构建逻辑回归模型;
步骤3.4,对逻辑回归模型中M维属性权重进行显著性检验,以显著性水平为0.05,筛选对干预效果具有显著影响的属性。
4.根据权利要求1所述的方法,其特征在于,属性融合得到关键属性的步骤具体包括:
步骤4.1,结合专家经验意见,考虑属性的采集难度,对步骤1和步骤2中选择得到的属性进一步筛选;
步骤4.2,基于boruta算法得到对干预效果具有重要影响的属性,和逻辑回归算法得到对干预效果具有显著影响的属性,选择同时出现的属性,作为影响干预效果的关键属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710332543.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防治植物害虫的植物源农药及其应用
- 下一篇:一种中药消毒抑菌喷雾剂
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用