[发明专利]一种基于决策树的医学检测指标筛选方法在审
申请号: | 201710729800.0 | 申请日: | 2017-08-23 |
公开(公告)号: | CN107610771A | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 张挺 | 申请(专利权)人: | 上海电力学院 |
主分类号: | G16H50/20 | 分类号: | G16H50/20 |
代理公司: | 上海科盛知识产权代理有限公司31225 | 代理人: | 赵继明 |
地址: | 200090 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 决策树 医学 检测 指标 筛选 方法 | ||
技术领域
本发明涉及一种数据处理方法,尤其是涉及一种基于决策树的医学检测指标筛选方法。
背景技术
在临床医学中,多年的门诊积累了大量患者的检测数据,然而这些检测数据种类多,数据量大,如何筛选出相关性较大的检测指标用于诊断,一直是医务人员非常关心的问题。如果利用这些检测数据发现检测数据内部及数据之间隐藏的规律,则可以提高诊断效率。医学数据的挖掘和处理重在从已知医学数据本身出发,能够提炼数据中的知识,总结医学专家的经验,是近年来医学信息领域颇受关注的研究方向。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于决策树的医学检测指标筛选方法。
本发明的目的可以通过以下技术方案来实现:
一种基于决策树的医学检测指标筛选方法,包括以下步骤:
S1,获取多个样本的各项医学检测指标数据,所述的样本被分为多个类别;
S2,将决策树训练方法中选用的医学检测指标作为筛选出来的医学检测指标,所述的决策树的叶节点为类别,节点的测试属性为医学检测指标。
所述的决策树训练过程中,选择具有最高信息增益的属性作为当前节点的测试属性。
所述的信息增益计算过程包括以下步骤:
1)计算对给定数据分类需要的信息量;
2)计算利用测试属性划分当前节点样本集合所需要的信息熵;
3)步骤2)计算结果减去步骤1)计算结果即为当前节点的测试属性的信息增益。
所述的信息量计算式为:
其中,当前节点s个样本被划分为m个不同类别Ci,i∈{1,2,3,…,m},si为类别Ci中的样本个数,pi是任意一个样本属于类别Ci的概率,其中的log函数以2为底。
所述的任意一个样本属于类别Ci的概率pi=si/s。
所述的信息熵计算式为:
其中,A表示当前节点的测试属性,A取v种不同的值,利用A将s个样本划分为v个子集{S1,S2,…Sj…,Sv},其中Sj包含了s个样本中属性A取aj值的样本,sij为子集Sj中属于Ci类别的样本数。
所述的医学检测指标包括嗜酸性粒细胞占白细胞总数的百分比EOS%(percentage of EOSinophils)、第1秒用力呼气量FEV1(Forced Expiratory Volume in1second)在用力肺活量FVC(Forced Vital Capacity)中所占比例FEV1/FVC(FEV1/FVC ratio)、最大用力呼气峰流量PEF(Peak Expiratory Flow)、呼出气体25%-75%肺容积平均流MMEF75/25(Maximal Mid-Expiratory Flow≥25%and≤75)和呼出气一氧化氮FENO(Fractional Exhaled Nitric Oxide)。
所述的样本被分为两类,为咳嗽患者和非咳嗽患者。
与现有技术相比,本发明具有以下优点:
(1)对已知分类结果的医学样本进行数据计算,总结了医学专家的经验,将医学检测指标与类别中的隐含关系挖掘出来,筛选出相关性较大的医学检测指标,可为未来临床医学诊断提供参考,提高诊断效率。
(2)采用决策树训练中的信息熵方法,决策树的生成是一个递归过程,能依次产生每一层节点的测试属性,从而得到与类别的相关性依次递减的医学检测指标。
附图说明
图1为本发明方法流程图;
图2为本实施例生成的决策树;
图3为本实施例中对各类指标重要性的计算结果。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海电力学院,未经上海电力学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710729800.0/2.html,转载请声明来源钻瓜专利网。