[发明专利]一种基于渗流分析的二元分类方法有效

专利信息
申请号: 201811292795.2 申请日: 2018-11-01
公开(公告)号: CN109376790B 公开(公告)日: 2021-02-23
发明(设计)人: 李大庆;郑参 申请(专利权)人: 北京航空航天大学
主分类号: G06K9/62 分类号: G06K9/62;G06F17/18
代理公司: 北京慧泉知识产权代理有限公司 11232 代理人: 王顺荣;唐爱华
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 渗流 分析 二元 分类 方法
【权利要求书】:

1.一种基于渗流分析的二元分类系统,其特征在于,所述系统实现如下步骤:

步骤1,研究对象为儿童血液指标,分别为白细胞WBC、红细胞RBC、血红蛋白HGB、血小板PLT、红细胞压积HCT,共5项指标,即n=5;在研究过程中,数据中随机抽取1万个数据,将个体单元抽象为节点,每个节点代表一个5维向量,初始节点数N=10000,节点编号从1开始顺序编号1~10000,按照欧式距离公式在5维空间中计算任意两个节点之间的欧式距离,公式如下:

式中:d(x,y)表示x与y之间的欧式距离;N表示指标网络总节点的数量;

同时将任意两节点之间连边,形成初始的指标网络,对统计每条连边起始节点、终止节点编号,并对M条边从0开始顺序编号;

步骤2,指标网络的渗流分析

步骤2-1,运用渗流理论对指标网络进行研究分析,首先将任意两节点之间的欧式距离进行归一化处理,即将其作为渗流阈值;当渗流阈值q为1时,此时指标网络为全联通网络,而当两节点的之间的连边大于渗流阈值q时,则删除连边及剥离节点;随着q的变化,网络出现最大连通子图G和次大连通子图SG,在渗流相变点qc处次大连通子图SG发生突变,表示此时指标网络处于最脆弱的阶段,此时群体分类达到最好的效果;

步骤2-2,节点i的度ki定义为与该节点连接的其他节点的数目,在关键阈值qc时,对指标网络中节点度进行统计分析,同时绘制指标网络的度分布图,横轴表示节点度k,纵轴表示度为k的节点占总节点数的比率,即

式中:N表示指标网络的总节点数量;k表示指标网络的节点度;Qk表示度为k的节点的数量;

步骤3,构建似然函数,确定关键阈值

为了保证步骤2中的渗流阈值q能够将群体准确的分类,本步骤将以渗流阈值q为参数构建似然函数,计算每个阈值下的似然,绘制似然随着阈值的变化图,找到最大似然下的阈值,确定关键阈值,即渗流相变点,具体包括以下两个子步骤:

步骤3-1,确定群体分布

给定阈值q,根据渗流结果,则每个人属于正常人的概率为属于异常人的概率为

步骤3-2,构建似然函数

根据人群特征构建似然函数:

式中:L(q)表示阈值q的似然函数;G(q)表示在阈值为q时指标网络最大连通子图G的大小;N表示指标网络总节点的数量;y(i)表示第i个节点被分类标记的类型,分类为正常群体则y(i)=0,被分类为异常群体则y(i)=1;

似然函数取对数得到:

式中:L(q)表示阈值为q的似然函数;l(q)表示将阈值为q的似然函数取对数;G(q)表示在阈值为q时指标网络最大连通子图G的大小;N表示指标网络总节点的数量;y(i)表示第i个节点被分类标记的类型,被分类为正常群体则y(i)=0,被分类为异常群体则y(i)=1;

其中和分别表示在阈值q下个体属于正常人和异常人的概率,y(i)表示第i个人在训练样本中分类标记的类别,正常标记为0,异常标记为1;

对血液指标网络模型的所有阈值q进行遍历,得到似然值随阈值q变化,纵轴表示每个阈值下的似然值,横轴表示阈值q,当阈值q=0.002时,血液指标网络的似然取得最大值,因此,确定血液指标网络模型的关键阈值qc=0.002;

步骤4,模型评价及验证

步骤4-1,构建逻辑回归模型

人体血液具有5项指标,因此以θ为参数,构建函数为:

上式中,θ=[θ012345]∈R6×1,即θ为6维行向量,m=10000,

式中:θ表示假设函数hθ(x)的参数;X表示训练样本;m表示训练样本的数量;

因此,Z=θTX=θ0x01x12x23x34x45x5;同时,运用Sigmoid函数对假设函数hθ(x)进行归一化,hθ(x)∈(0,1),为后续人群标记分类奠定基础;

构建成本函数:

式中:θ表示成本函数J(θ)的参数;m表示训练样本的数量;x(i)表示第i个训练样本,i∈[1,m];y(i)表示第i个训练样本实际属于的类别,正例则y(i)=0,负例则y(i)=1;

运用梯度下降算法求全局最优解,得到参数θ:

Repeat{

}

式中:θj表示第j个参数,j∈[0,n];α表示学习率;m表示训练样本的数量;x(i)表示第i个训练样本,i∈[1,m];表示第i个训练样本的第j个指标;

设定规则将人群分类标记,引入阈值qL,当qL>hθ(x)则分类为异常人标记为1,当qL≤hθ(x)则分类为正常人标记为0;

步骤4-2,模型对比分析评价

针对步骤3和步骤4-1中两种分类模型的分类结果运用混淆矩阵、ROC曲线以及AUC模型进行评价;

首先根据两种模型的分类结果,运用混淆矩阵计算准确率Accuracy、误分类率Errorrate、覆盖率Recall、命中率Precision、负例的覆盖率Specificity、负例的命中率Negative predicted value六项指标随阈值q/qL的变化;当阈值qL=0.62时,模型准确率取得最大值为73.78%,误分类率取得最小值为26.22%;当阈值q=0.002时,模型准确率取得最大值为77.08%73.78%,误分类率取得最小值为22.92%26.22%;

其次,运用ROC曲线和AUC模型对两种分类模型进行评价,横坐标为1-Specificity假阳率FPR,纵坐标为TPR真阳率;ROC曲线上每一个点代表一个阈值,遍历所有的阈值则得到ROC曲线;当阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1);理想目标为:TPR=1,FPR=0,故ROC曲线越靠拢(0,1)点,越偏离45度对角线越好,True Positive Rate、Specificity越大效果越好;ROC曲线下的面积,介于0.1和1之间;AUC作为数值更加直观的评价分类器的好坏,值越大越好;

逻辑回归模型ROC曲线相较于网络模型的ROC曲线更加向(0,1)点靠拢,且偏离45度对角线更大;同时,网络模型AUC=0.810逻辑回归模型AUC=0.766,因此,判定网络模型具有更好的分类效果及更高的准确率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811292795.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top