[发明专利]基于逆向剔除法的高维度数据功能选择算法及其在医疗中的应用无效
申请号: | 201310324927.6 | 申请日: | 2013-07-30 |
公开(公告)号: | CN103500263A | 公开(公告)日: | 2014-01-08 |
发明(设计)人: | 胡膺期 | 申请(专利权)人: | 胡膺期 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 东莞市众达专利商标事务所(普通合伙) 44251 | 代理人: | 刘汉民 |
地址: | 中国香港清水湾九龙香港科技大*** | 国省代码: | 中国香港;81 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 逆向 剔除 维度 数据 功能 选择 算法 及其 医疗 中的 应用 | ||
1.一种基于逆向剔除法的高维度数据功能选择算法,其特征在于:包括三个阶段:
第一阶段,基于交互作用的变量筛选法,先识别能够和其它因子交互作用从而形成功能模块的有影响力因子;
第二阶段,由逆向剔除法产生功能模块,利用第一阶段产生的有影响力因子,选出能与之形成高度有影响力的功能模块,功能模块内的各因子互相作用,从而产生对因变量的强相关性;
第三阶段,整合分类器,一个功能模块形成一个分类器,将多个分类器整合形成对因变量的分类规则。
2.根据权利要求1所述的基于逆向剔除法的高维度数据功能选择算法,其特征在于:第一阶段中,在数据筛选时,先决定影响力分数的临界值,在决定影响力分数的临界值后,再确定保留频率的阈值。
3.根据权利要求2所述的基于逆向剔除法的高维度数据功能选择算法,其特征在于:确定影响力分数的临界值的方式是先决定了要考虑的变量或因子的交互作用,获得了对任何因子组合的统计量的分数,然后决定一个影响力分数的临界值,分数比临界值高的变量组合会被保留下来继续分析,并摈弃分数比临界值低的组合。
4.根据权利要求2所述的基于逆向剔除法的高维度数据功能选择算法,其特征在于:确定保留频率的阈值时,高频率变量具有极大潜质形成具有影响力的变量组合,用保留频率来进行变量组合中的变量挑选。
5.根据权利要求1所述的基于逆向剔除法的高维度数据功能选择算法,其特征在于:第二阶段中,使用逆向剔除法前需先决定两个参数,一个是计算逆向剔除法的起始大小,另一个是计算逆向剔除法所需重复的次数。
6.根据权利要求5所述的基于逆向剔除法的高维度数据功能选择算法,其特征在于:所述起始大小由以下的条件来界定:至少有一个分割部分包含两个以上的数据点,使用泊松逼近法算出满足的条件为:
其中是训练集大小,是当集合中有个变量时的分割数。
7.根据权利要求5所述的基于逆向剔除法的高维度数据功能选择算法,其特征在于:逆向剔除法重复次数的界定是大于理论值次、小于上限值2次,其中
。
8.根据权利要求5所述的基于逆向剔除法的高维度数据功能选择算法,其特征在于:第二阶段中,在完成计算逆向剔除法所需重复的次数后,进而进行逆向剔除,而后进行用于减少返回集之间的相关性和假阳性的两个过滤步骤,两个过滤步骤第一步是过滤掉有重复变量的返回集,第二步是把返回集按照影响力分数递减的顺序排列,然后去除掉那些与更高分数的返回集有重叠变量。
9.根据权利要求1所述的基于逆向剔除法的高维度数据功能选择算法,其特征在于:第三阶段中,所述分类器选用包含功能模块中所有变量的交互作用的罗杰斯回归分类器,分类方法采用Boosting法来结合分类器。
10.一种基于逆向剔除法的高维度数据功能选择算法在医疗中的应用,其特征在于:采用如权利要求1至9其中一项所述的高维度数据功能选择算法依据基因表现数据将扩散型和非扩散型乳癌病人的基因分类,为基因诊断与治疗提供量化结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于胡膺期,未经胡膺期许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310324927.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:煮糖结晶过程非线性系统建模方法
- 下一篇:电量计量信号时域解析方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用