[发明专利]一种基于渗流分析的二元分类方法有效
| 申请号: | 201811292795.2 | 申请日: | 2018-11-01 |
| 公开(公告)号: | CN109376790B | 公开(公告)日: | 2021-02-23 |
| 发明(设计)人: | 李大庆;郑参 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/18 |
| 代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 王顺荣;唐爱华 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 渗流 分析 二元 分类 方法 | ||
1.一种基于渗流分析的二元分类系统,其特征在于,所述系统实现如下步骤:
步骤1,研究对象为儿童血液指标,分别为白细胞WBC、红细胞RBC、血红蛋白HGB、血小板PLT、红细胞压积HCT,共5项指标,即n=5;在研究过程中,数据中随机抽取1万个数据,将个体单元抽象为节点,每个节点代表一个5维向量,初始节点数N=10000,节点编号从1开始顺序编号1~10000,按照欧式距离公式在5维空间中计算任意两个节点之间的欧式距离,公式如下:
式中:d(x,y)表示x与y之间的欧式距离;N表示指标网络总节点的数量;
同时将任意两节点之间连边,形成初始的指标网络,对统计每条连边起始节点、终止节点编号,并对M条边从0开始顺序编号;
步骤2,指标网络的渗流分析
步骤2-1,运用渗流理论对指标网络进行研究分析,首先将任意两节点之间的欧式距离进行归一化处理,即将其作为渗流阈值;当渗流阈值q为1时,此时指标网络为全联通网络,而当两节点的之间的连边大于渗流阈值q时,则删除连边及剥离节点;随着q的变化,网络出现最大连通子图G和次大连通子图SG,在渗流相变点qc处次大连通子图SG发生突变,表示此时指标网络处于最脆弱的阶段,此时群体分类达到最好的效果;
步骤2-2,节点i的度ki定义为与该节点连接的其他节点的数目,在关键阈值qc时,对指标网络中节点度进行统计分析,同时绘制指标网络的度分布图,横轴表示节点度k,纵轴表示度为k的节点占总节点数的比率,即
式中:N表示指标网络的总节点数量;k表示指标网络的节点度;Qk表示度为k的节点的数量;
步骤3,构建似然函数,确定关键阈值
为了保证步骤2中的渗流阈值q能够将群体准确的分类,本步骤将以渗流阈值q为参数构建似然函数,计算每个阈值下的似然,绘制似然随着阈值的变化图,找到最大似然下的阈值,确定关键阈值,即渗流相变点,具体包括以下两个子步骤:
步骤3-1,确定群体分布
给定阈值q,根据渗流结果,则每个人属于正常人的概率为属于异常人的概率为
步骤3-2,构建似然函数
根据人群特征构建似然函数:
式中:L(q)表示阈值q的似然函数;G(q)表示在阈值为q时指标网络最大连通子图G的大小;N表示指标网络总节点的数量;y(i)表示第i个节点被分类标记的类型,分类为正常群体则y(i)=0,被分类为异常群体则y(i)=1;
似然函数取对数得到:
式中:L(q)表示阈值为q的似然函数;l(q)表示将阈值为q的似然函数取对数;G(q)表示在阈值为q时指标网络最大连通子图G的大小;N表示指标网络总节点的数量;y(i)表示第i个节点被分类标记的类型,被分类为正常群体则y(i)=0,被分类为异常群体则y(i)=1;
其中和分别表示在阈值q下个体属于正常人和异常人的概率,y(i)表示第i个人在训练样本中分类标记的类别,正常标记为0,异常标记为1;
对血液指标网络模型的所有阈值q进行遍历,得到似然值随阈值q变化,纵轴表示每个阈值下的似然值,横轴表示阈值q,当阈值q=0.002时,血液指标网络的似然取得最大值,因此,确定血液指标网络模型的关键阈值qc=0.002;
步骤4,模型评价及验证
步骤4-1,构建逻辑回归模型
人体血液具有5项指标,因此以θ为参数,构建函数为:
上式中,θ=[θ0,θ1,θ2,θ3,θ4,θ5]∈R6×1,即θ为6维行向量,m=10000,
式中:θ表示假设函数hθ(x)的参数;X表示训练样本;m表示训练样本的数量;
因此,Z=θTX=θ0x0+θ1x1+θ2x2+θ3x3+θ4x4+θ5x5;同时,运用Sigmoid函数对假设函数hθ(x)进行归一化,hθ(x)∈(0,1),为后续人群标记分类奠定基础;
构建成本函数:
式中:θ表示成本函数J(θ)的参数;m表示训练样本的数量;x(i)表示第i个训练样本,i∈[1,m];y(i)表示第i个训练样本实际属于的类别,正例则y(i)=0,负例则y(i)=1;
运用梯度下降算法求全局最优解,得到参数θ:
Repeat{
}
式中:θj表示第j个参数,j∈[0,n];α表示学习率;m表示训练样本的数量;x(i)表示第i个训练样本,i∈[1,m];表示第i个训练样本的第j个指标;
设定规则将人群分类标记,引入阈值qL,当qL>hθ(x)则分类为异常人标记为1,当qL≤hθ(x)则分类为正常人标记为0;
步骤4-2,模型对比分析评价
针对步骤3和步骤4-1中两种分类模型的分类结果运用混淆矩阵、ROC曲线以及AUC模型进行评价;
首先根据两种模型的分类结果,运用混淆矩阵计算准确率Accuracy、误分类率Errorrate、覆盖率Recall、命中率Precision、负例的覆盖率Specificity、负例的命中率Negative predicted value六项指标随阈值q/qL的变化;当阈值qL=0.62时,模型准确率取得最大值为73.78%,误分类率取得最小值为26.22%;当阈值q=0.002时,模型准确率取得最大值为77.08%73.78%,误分类率取得最小值为22.92%26.22%;
其次,运用ROC曲线和AUC模型对两种分类模型进行评价,横坐标为1-Specificity假阳率FPR,纵坐标为TPR真阳率;ROC曲线上每一个点代表一个阈值,遍历所有的阈值则得到ROC曲线;当阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1);理想目标为:TPR=1,FPR=0,故ROC曲线越靠拢(0,1)点,越偏离45度对角线越好,True Positive Rate、Specificity越大效果越好;ROC曲线下的面积,介于0.1和1之间;AUC作为数值更加直观的评价分类器的好坏,值越大越好;
逻辑回归模型ROC曲线相较于网络模型的ROC曲线更加向(0,1)点靠拢,且偏离45度对角线更大;同时,网络模型AUC=0.810逻辑回归模型AUC=0.766,因此,判定网络模型具有更好的分类效果及更高的准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811292795.2/1.html,转载请声明来源钻瓜专利网。





