[发明专利]基于逆向剔除法的高维度数据功能选择算法及其在医疗中的应用无效

申请号：	201310324927.6	申请日：	2013-07-30
公开（公告）号：	CN103500263A	公开（公告）日：	2014-01-08
发明（设计）人：	胡膺期	申请（专利权）人：	胡膺期
主分类号：	G06F19/00	分类号：	G06F19/00
代理公司：	东莞市众达专利商标事务所(普通合伙) 44251	代理人：	刘汉民
地址：	中国香港清水湾九龙香港科技大***	国省代码：	中国香港;81
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于逆向剔除维度数据功能选择算法及其医疗中的应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及预测、分类、聚簇领域技术，尤其是指一种基于逆向剔除法的高维度数据功能选择算法及其在医疗中的应用。

背景技术

高维度数据主要是指：数据中记录的个体数要远远小于每个个体的属性的类型。例如在基因预测与诊断中，数据包括了正常人和病人，人的总数就是数据的个体数，但是每个个体他的基因有上百万个。由于成本因素，不可能存在一个有上百万个人的基因信息，怎样在很小的个体数的前提下，从上百万的基因中找到若干真正能够预测疾病的基因，这已经不是常规统计算法能够解决的问题。不仅预测如此具备挑战性，如何将病人按照基因的类型分类以便能够更好的针对性治疗，也是当今国际上学术与商业中最具挑战的技术前沿。

现有的一类重要且被广泛采用算法是变量筛选法（LASSO法），该变量筛选法是先假设数据是依据一个统计模型产生。这模型所牵涉到的协变量对应变量的效应可由协变量在模型中的相关系数估计而得。变量筛选可以选择那些相关系数大的抛弃系数小的来进行，例如，假设数据是由如下的线性模型产生：，为了增加最小平方估计的预测准确度与可理解性，LASSO法在最小平方法中加上了一阶范数惩罚项使得最小平法估计系数更接近0甚至变成0由此进行变量筛选。

这类变量筛选法在变量数目不很大时的效果很好，但是如果变量数很大，或者变量之间有交互作用必需要考虑由原始变量乘积所产生的额外变量，这使得总共的变量数是总共样本大小的指数函数，在这种情况下估计统计模型的系数是非常困难的，因为噪音可能比信息量还大。

注意到LASSO法的缺陷，有专家学者提出了SIS 筛选法。SIS 筛选法是采用应变量与协变量相关系数一次只考虑一个变量，经过SIS筛选的变量数减少许多，然后再使用LASSO法进行二度筛选，如此SIS能够改进LASSO法的效用。但是，其具有缺点：变量交互作用通常与模块效应同时出现，所以有些变量的效用必须与其它变量同时考虑才能侦测得到。

发明内容

有鉴于此，本发明针对现有技术存在之缺失，其主要目的是提供一种基于逆向剔除法的高维度数据功能选择算法及其在医疗中的应用，具有预测准确、误差小、应用领域广的优点。

为实现上述目的，本发明采用如下之技术方案：

一种基于逆向剔除法的高维度数据功能选择算法，包括三个阶段：

第一阶段，基于交互作用的变量筛选法，先识别能够和其它因子交互作用从而形成功能模块的有影响力因子；

第二阶段，由逆向剔除法产生功能模块，利用第一阶段产生的有影响力因子，选出能与之形成高度有影响力的功能模块，功能模块内的各因子互相作用，从而产生对因变量的强相关性；

第三阶段，整合分类器，一个功能模块形成一个分类器，将多个分类器整合形成对因变量的分类规则。

作为一种优选方案，第一阶段中，在数据筛选时，先决定影响力分数的临界值，在决定影响力分数的临界值后，再确定保留频率的阈值。

作为一种优选方案，确定影响力分数的临界值的方式是先决定了要考虑的变量或因子的交互作用，获得了对任何因子组合的统计量的分数，然后决定一个影响力分数的临界值，分数比临界值高的变量组合会被保留下来继续分析，并摈弃分数比临界值低的组合。

作为一种优选方案，确定保留频率的阈值时，高频率变量具有极大潜质形成具有影响力的变量组合，用保留频率来进行变量组合中的变量挑选。

作为一种优选方案，第二阶段中，使用逆向剔除法前需先决定两个参数，一个是计算逆向剔除法的起始大小，另一个是计算逆向剔除法所需重复的次数。

作为一种优选方案，所述起始大小由以下的条件来界定：至少有一个分割部分包含两个以上的数据点，使用泊松逼近法算出满足的条件为：