[发明专利]分布式列子集选择方法、系统及白血病基因信息挖掘方法在审
申请号: | 202110350013.1 | 申请日: | 2021-03-31 |
公开(公告)号: | CN113077843A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 肖正;魏鹏程 | 申请(专利权)人: | 湖南大学;邵东智能制造技术研究院有限公司 |
主分类号: | G16B35/20 | 分类号: | G16B35/20;G16B40/00;G16H50/70 |
代理公司: | 长沙永星专利商标事务所(普通合伙) 43001 | 代理人: | 周咏;米中业 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 子集 选择 方法 系统 白血病 基因 信息 挖掘 | ||
1.一种面向列子集选择的分布式列子集选择方法,包括如下步骤:
S1.获取数据集中全部的特征;
S2.对步骤S1获取的数据集中的特征进行处理,然后均匀分组到各计算节点;
S3.在每台计算节点上执行子集质量评估方法,从而计算得到对应的特征子集目标特征数;
S4.根据步骤S3得到的各个计算节点的特征子集目标特征数,每台计算节点进行各自的特征选择计算,从而得到每台计算节点所选择得到的特征;
S5.汇总步骤S4得到的各计算节点的特征选择计算结果,从而得到最终选择到的特征。
2.根据权利要求1所述的分布式列子集选择方法,其特征在于步骤S2包括:首先将数据集中数据转化为一个由特征和特征取值组成的二维矩阵,然后将特征取值全为空以及特征取值方差为0的特征删除,接着利用L2范数对剩余特征进行归一化处理,最后根据集群中的计算节点数量建立分组标签,为每一个特征随机分配标签,从而将每一个特征随机划分到不同的计算节点的特征子集。
3.根据权利要求2所述的分布式列子集选择方法,其特征在于对每个特征F的L2范数归一化的计算公式如下:
其中,fv1,fv2,…,fvn是特征F可能取得的特征值;||F||2表示特征F的L2范数。
4.根据权利要求3所述的分布式列子集选择方法,其特征在于步骤S3所述的子集质量评估方法,具体为使用信息熵衡量特征子集Vi的子集质量SQi;特征信息熵H(F)用于衡量一个特征F所蕴含信息量的大小,信息熵H(F)越高表示该特征F蕴含的信息量越大,定义特征集合熵:
其中,Ni为特征子集Vi所含特征数目,fvt是特征Fj所有可能取得的特征值,p(fvt)=Pr(Fj=fvt)是概率质量函数;子集质量SQi的值越大,表示特征子集Vi含有的信息量越大,越多的最优特征分布在特征子集Vi中,因此特征数目ki越大。
5.根据权利要求4所述的分布式列子集选择方法,其特征在于步骤S4所述的根据步骤S3得到的各个计算节点的特征子集目标特征数,每台计算节点进行各自的特征选择计算,具体为,质量越高,特征数目ki越大;为了保证质量更高的特征子集Vi能分配到更大的特征数目ki,将各子集的子集质量SQi降序排列,计算降序排列的前m-1个子集的特征数目ki,m为集群中计算节点的数量;
其中,1≤i≤m-1,[·]表示向上取整,k为目标特征总数;
得到前m-1个子集的特征数目ki后,降序排列的最后一个子集的特征数目ki,记为
6.根据权利要求5所述的分布式列子集选择方法,其特征在于步骤S4所述的每台计算节点进行各自的特征选择计算,具体每台计算节点采用POCSS算法进行各自的特征选择计算。
7.一种基于权利要求1~6之一所述的分布式列子集选择方法的系统,其特征在于包括获取模块、预处理模块、评估模块、选择模块和输出模块;获取模块、预处理模块、评估模块、选择模块和输出模块依次串联;获取模块用于获取数据集中全部的特征;预处理模块用于预处理原始数据集,并负责特征的清洗和归一化处理,根据集群中计算节点数量为处理后的特征集均匀随机分配分组标签,并为下一模块的计算做输入准备;评估模块用于为各特征子集进行子集质量评估,根据各子集质量为该子集找到目标特征数目;选择模块用于根据特征子集以及目标特征数目,采用采用POCSS算法在各计算节点上计算,然后汇总各节点的计算结果得到最终选择到的特征;输出模块用于输出特征选择结果。
8.一种基于权利要求1~7之一所述的分布式列子集选择方法和系统的白血病基因挖掘方法,其特征在于包括如下步骤:
B1.给定一个总特征选择数目k;
B2.通过获取模块将基因数据集读入并转化为一个由样本和特征组成的二维矩阵A=(样本数量,特征数量);
B3.通过预处理模块将步骤B2得到矩阵进行特征清洗和归一化处理;
B4.将步骤B3清理后数据根据集群中节点数量,形成基因子集Vi分发到各个节点;
B5.通过评估模块,各节点利用子集质量评估算法计算所分配基因子集的质量SQi;
B6.根据各子集的质量和总目标特征数计算出每个子集应选的特征数ki;
B7.根据ki执行POCSS算法,在每个基因子集中选择出ki个特征;
B8.汇总各节点的选择结果,从而得到最终k个与白血病最具相关性的基因表达。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学;邵东智能制造技术研究院有限公司,未经湖南大学;邵东智能制造技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110350013.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种经皮椎弓根的病变椎体内植骨器械
- 下一篇:一种氢燃料电池浸水测试试验装置