[发明专利]基于逆向剔除法的高维度数据功能选择算法及其在医疗中的应用无效
申请号: | 201310324927.6 | 申请日: | 2013-07-30 |
公开(公告)号: | CN103500263A | 公开(公告)日: | 2014-01-08 |
发明(设计)人: | 胡膺期 | 申请(专利权)人: | 胡膺期 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 东莞市众达专利商标事务所(普通合伙) 44251 | 代理人: | 刘汉民 |
地址: | 中国香港清水湾九龙香港科技大*** | 国省代码: | 中国香港;81 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 逆向 剔除 维度 数据 功能 选择 算法 及其 医疗 中的 应用 | ||
技术领域
本发明涉及预测、分类、聚簇领域技术,尤其是指一种基于逆向剔除法的高维度数据功能选择算法及其在医疗中的应用。
背景技术
高维度数据主要是指:数据中记录的个体数要远远小于每个个体的属性的类型。例如在基因预测与诊断中,数据包括了正常人和病人,人的总数就是数据的个体数,但是每个个体他的基因有上百万个。由于成本因素,不可能存在一个有上百万个人的基因信息,怎样在很小的个体数的前提下,从上百万的基因中找到若干真正能够预测疾病的基因,这已经不是常规统计算法能够解决的问题。不仅预测如此具备挑战性,如何将病人按照基因的类型分类以便能够更好的针对性治疗,也是当今国际上学术与商业中最具挑战的技术前沿。
现有的一类重要且被广泛采用算法是变量筛选法(LASSO法),该变量筛选法是先假设数据是依据一个统计模型产生。这模型所牵涉到的协变量对应变量的效应可由协变量在模型中的相关系数估计而得。变量筛选可以选择那些相关系数大的抛弃系数小的来进行,例如,假设数据是由如下的线性模型产生: ,为了增加最小平方估计的预测准确度与可理解性,LASSO法在最小平方法中加上了一阶范数惩罚项使得最小平法估计系数更接近0甚至变成0由此进行变量筛选。
这类变量筛选法在变量数目不很大时的效果很好,但是如果变量数很大,或者变量之间有交互作用必需要考虑由原始变量乘积所产生的额外变量,这使得总共的变量数是总共样本大小的指数函数,在这种情况下估计统计模型的系数是非常困难的,因为噪音可能比信息量还大。
注意到LASSO法的缺陷,有专家学者提出了SIS 筛选法。SIS 筛选法是采用应变量与协变量相关系数一次只考虑一个变量,经过SIS筛选的变量数减少许多,然后再使用LASSO法进行二度筛选,如此SIS能够改进LASSO法的效用。但是,其具有缺点:变量交互作用通常与模块效应同时出现,所以有些变量的效用必须与其它变量同时考虑才能侦测得到。
发明内容
有鉴于此,本发明针对现有技术存在之缺失,其主要目的是提供一种基于逆向剔除法的高维度数据功能选择算法及其在医疗中的应用,具有预测准确、误差小、应用领域广的优点。
为实现上述目的,本发明采用如下之技术方案:
一种基于逆向剔除法的高维度数据功能选择算法,包括三个阶段:
第一阶段,基于交互作用的变量筛选法,先识别能够和其它因子交互作用从而形成功能模块的有影响力因子;
第二阶段,由逆向剔除法产生功能模块,利用第一阶段产生的有影响力因子,选出能与之形成高度有影响力的功能模块,功能模块内的各因子互相作用,从而产生对因变量的强相关性;
第三阶段,整合分类器,一个功能模块形成一个分类器,将多个分类器整合形成对因变量的分类规则。
作为一种优选方案,第一阶段中,在数据筛选时,先决定影响力分数的临界值,在决定影响力分数的临界值后,再确定保留频率的阈值。
作为一种优选方案,确定影响力分数的临界值的方式是先决定了要考虑的变量或因子的交互作用,获得了对任何因子组合的统计量的分数,然后决定一个影响力分数的临界值,分数比临界值高的变量组合会被保留下来继续分析,并摈弃分数比临界值低的组合。
作为一种优选方案,确定保留频率的阈值时,高频率变量具有极大潜质形成具有影响力的变量组合,用保留频率来进行变量组合中的变量挑选。
作为一种优选方案,第二阶段中,使用逆向剔除法前需先决定两个参数,一个是计算逆向剔除法的起始大小,另一个是计算逆向剔除法所需重复的次数。
作为一种优选方案,所述起始大小由以下的条件来界定:至少有一个分割部分包含两个以上的数据点,使用泊松逼近法算出满足的条件为:
其中是训练集大小,是当集合中有个变量时的分割数。
作为一种优选方案,逆向剔除法重复次数的界定是大于理论值次、小于上限值2次,其中
。
作为一种优选方案,第二阶段中,在完成计算逆向剔除法所需重复的次数后,进而进行逆向剔除,而后进行用于减少返回集之间的相关性和假阳性的两个过滤步骤,两个过滤步骤第一步是过滤掉有重复变量的返回集,第二步是把返回集按照影响力分数递减的顺序排列,然后去除掉那些与更高分数的返回集有重叠变量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于胡膺期,未经胡膺期许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310324927.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:煮糖结晶过程非线性系统建模方法
- 下一篇:电量计量信号时域解析方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用