[发明专利]大规模不平衡糖尿病电子病历并行分类邻域证据Spark方法有效
申请号: | 202110341531.7 | 申请日: | 2021-03-30 |
公开(公告)号: | CN113012776B | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 丁卫平;李铭;孙颖;秦廷帧;鞠恒荣;黄嘉爽;高自强;潘壬远 | 申请(专利权)人: | 南通大学 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G16H15/00;G06F16/182;G06K9/62 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱小兵 |
地址: | 226019 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大规模 不平衡 糖尿病 电子 病历 并行 分类 邻域 证据 spark 方法 | ||
1.大规模不平衡糖尿病电子病历并行分类邻域证据Spark方法,其特征在于,包括以下步骤:
S1:在主节点Master上,通过Hadoop分布式文件系统HDFS读取大规模不平衡糖尿病电子病历数据集,按照4:1比例划分训练数据集STR和测试数据集STE,将训练数据集STR发送到m子节点上,并将数据转换为一个四元组决策信息系统S=U,C∪D,V,f,决策信息系统S表示如下:
S=U,C∪D,V,f,其中U={x1,x2,...,xM}表示糖尿病电子病历数据集中的患者对象集合,M表示糖尿病电子病历患者的个数;C={a1,a2,...,an}表示糖尿病电子病历患者病理特征的非空有限集合,n表示糖尿病电子病历患者病理特征的个数;D={d1,d2}表示糖尿病电子病历患者类别标签的非空有限集合,d1表示患者没有患有糖尿病,d2表示患者患有糖尿病,且V=∪a∈C∪DVa,Va是糖尿病电子病历患者病理特征a的可能情况;f:U×C∪D→V是一个信息函数,它为每个糖尿病电子病历患者病理特征赋予一个信息值,即x∈U,f(x,a)∈Va;
S2:对糖尿病训练集进行不平衡预处理:在子节点Slaveri上,i=1,2,...,m,从训练数据集STR<UTR,C∪D,VTR,f的电子病历患者集合中分别筛选出患有糖尿病患者集合和未患有糖尿病患者集合且满足和其中P+N=M1,P>N,N表示患有糖尿病患者的个数,P表示未患有糖尿病患者的个数,然后利用Spark并行欠采样从上随机采样出N个未患有糖尿病患者集合将和合并形成新的数据子集其中在不同的子节点上形成不同的训练数据子集;
S3:在子节点Slaveri上,构建基于邻域决策错误率的Spark并行病理特征约简器得到糖尿病电子病历数据在不同子节点下的病理特征约简集合{R1,R2,...,Ri,...,Rm};
S4:邻域决策错误率的Spark并行病理特征约简器构建实现方法:在子节点Slaveri上,首先计算糖尿病患者对象的邻域空间,其次根据糖尿病患者对象的邻域空间计算关于糖尿病类别标签下近似集,再次根据类别概率预测糖尿病患者对象的类别标签,并计算邻域错误率,最后通过邻域错误率构建糖尿病患者对象的病理特征重要度集,并对糖尿病患者病理特征集合进行病理特征约简得到子节点Slaveri上的病理特征约简子集Ri;
S5:将糖尿病测试数据集广播到m个子节点上,并根据病理特征约简集合{R1,R2,...,Rm}更新训练数据子集和测试数据集中的病理特征集合C,得到新的训练数据子集集合和测试数据子集集合其中
S6:在子节点Slaveri上,通过D-S证据理论驱动的邻域证据Spark并行分类器对测试子集中的待测糖尿病电子病历患者进行预测类别标签;
S7:证据理论驱动的邻域粗糙分类器构建实现方法:在子节点Slaveri上,首先计算待测糖尿病电子病历患者的邻域空间中关于训练数据集中糖尿病电子病历患者及其决策类划分的证据信息,其次将不同类别标签的证据信息进行聚合,再次计算待测糖尿病电子病历患者对某一决策类划分的信任函数和似然函数,最后根据最大信任函数值预测子节点Slaveri上的待测糖尿病电子病历患者的类别标签ωi;
S8:将m个子节点上的预测类别标签发送到主节点上,根据多数投票机制,通过Reduce操作聚合m个预测类别标签中概率最大的类别标签作为待测糖尿病电子病历患者的最终预测类别标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110341531.7/1.html,转载请声明来源钻瓜专利网。