[发明专利]一种基于渗流分析的二元分类方法有效

申请号：	201811292795.2	申请日：	2018-11-01
公开（公告）号：	CN109376790B	公开（公告）日：	2021-02-23
发明（设计）人：	李大庆;郑参	申请（专利权）人：	北京航空航天大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F17/18
代理公司：	北京慧泉知识产权代理有限公司 11232	代理人：	王顺荣;唐爱华
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于渗流分析二元分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于渗流分析的二元分类系统，其特征在于，所述系统实现如下步骤：

步骤1，研究对象为儿童血液指标，分别为白细胞WBC、红细胞RBC、血红蛋白HGB、血小板PLT、红细胞压积HCT，共5项指标，即n＝5；在研究过程中，数据中随机抽取1万个数据，将个体单元抽象为节点，每个节点代表一个5维向量，初始节点数N＝10000，节点编号从1开始顺序编号1～10000，按照欧式距离公式在5维空间中计算任意两个节点之间的欧式距离，公式如下：

式中：d(x,y)表示x与y之间的欧式距离；N表示指标网络总节点的数量；

同时将任意两节点之间连边，形成初始的指标网络，对统计每条连边起始节点、终止节点编号，并对M条边从0开始顺序编号；

步骤2，指标网络的渗流分析

步骤2-1，运用渗流理论对指标网络进行研究分析，首先将任意两节点之间的欧式距离进行归一化处理，即将其作为渗流阈值；当渗流阈值q为1时，此时指标网络为全联通网络，而当两节点的之间的连边大于渗流阈值q时，则删除连边及剥离节点；随着q的变化，网络出现最大连通子图G和次大连通子图SG，在渗流相变点q_c处次大连通子图SG发生突变，表示此时指标网络处于最脆弱的阶段，此时群体分类达到最好的效果；

步骤2-2，节点i的度k_i定义为与该节点连接的其他节点的数目，在关键阈值q_c时，对指标网络中节点度进行统计分析，同时绘制指标网络的度分布图，横轴表示节点度k，纵轴表示度为k的节点占总节点数的比率，即

式中：N表示指标网络的总节点数量；k表示指标网络的节点度；Q^k表示度为k的节点的数量；

步骤3，构建似然函数，确定关键阈值

为了保证步骤2中的渗流阈值q能够将群体准确的分类，本步骤将以渗流阈值q为参数构建似然函数，计算每个阈值下的似然，绘制似然随着阈值的变化图，找到最大似然下的阈值，确定关键阈值，即渗流相变点，具体包括以下两个子步骤：

步骤3-1，确定群体分布

给定阈值q，根据渗流结果，则每个人属于正常人的概率为属于异常人的概率为

步骤3-2，构建似然函数

根据人群特征构建似然函数：

式中：L(q)表示阈值q的似然函数；G(q)表示在阈值为q时指标网络最大连通子图G的大小；N表示指标网络总节点的数量；y⁽ⁱ⁾表示第i个节点被分类标记的类型，分类为正常群体则y⁽ⁱ⁾＝0，被分类为异常群体则y⁽ⁱ⁾＝1；

似然函数取对数得到：

式中：L(q)表示阈值为q的似然函数；l(q)表示将阈值为q的似然函数取对数；G(q)表示在阈值为q时指标网络最大连通子图G的大小；N表示指标网络总节点的数量；y⁽ⁱ⁾表示第i个节点被分类标记的类型，被分类为正常群体则y⁽ⁱ⁾＝0，被分类为异常群体则y⁽ⁱ⁾＝1；

其中和分别表示在阈值q下个体属于正常人和异常人的概率，y⁽ⁱ⁾表示第i个人在训练样本中分类标记的类别，正常标记为0，异常标记为1；

对血液指标网络模型的所有阈值q进行遍历，得到似然值随阈值q变化，纵轴表示每个阈值下的似然值，横轴表示阈值q，当阈值q＝0.002时，血液指标网络的似然取得最大值，因此，确定血液指标网络模型的关键阈值q_c＝0.002；

步骤4，模型评价及验证

步骤4-1，构建逻辑回归模型

人体血液具有5项指标，因此以θ为参数，构建函数为：

上式中，θ＝[θ₀,θ₁,θ₂,θ₃,θ₄,θ₅]∈R^6×1，即θ为6维行向量，m＝10000,

式中：θ表示假设函数h_θ(x)的参数；X表示训练样本；m表示训练样本的数量；

因此，Z＝θ^TX＝θ₀x₀+θ₁x₁+θ₂x₂+θ₃x₃+θ₄x₄+θ₅x₅；同时，运用Sigmoid函数对假设函数h_θ(x)进行归一化，h_θ(x)∈(0,1)，为后续人群标记分类奠定基础；

构建成本函数：

式中：θ表示成本函数J(θ)的参数；m表示训练样本的数量；x⁽ⁱ⁾表示第i个训练样本，i∈[1,m]；y⁽ⁱ⁾表示第i个训练样本实际属于的类别，正例则y⁽ⁱ⁾＝0，负例则y⁽ⁱ⁾＝1；

运用梯度下降算法求全局最优解，得到参数θ：

Repeat{

}

式中：θ_j表示第j个参数，j∈[0,n]；α表示学习率；m表示训练样本的数量；x⁽ⁱ⁾表示第i个训练样本，i∈[1,m]；表示第i个训练样本的第j个指标；

设定规则将人群分类标记，引入阈值q_L，当q_L＞h_θ(x)则分类为异常人标记为1，当q_L≤h_θ(x)则分类为正常人标记为0；

步骤4-2，模型对比分析评价

针对步骤3和步骤4-1中两种分类模型的分类结果运用混淆矩阵、ROC曲线以及AUC模型进行评价；

首先根据两种模型的分类结果，运用混淆矩阵计算准确率Accuracy、误分类率Errorrate、覆盖率Recall、命中率Precision、负例的覆盖率Specificity、负例的命中率Negative predicted value六项指标随阈值q/q_L的变化；当阈值q_L＝0.62时，模型准确率取得最大值为73.78％，误分类率取得最小值为26.22％；当阈值q＝0.002时，模型准确率取得最大值为77.08％73.78％，误分类率取得最小值为22.92％26.22％；

其次，运用ROC曲线和AUC模型对两种分类模型进行评价，横坐标为1-Specificity假阳率FPR，纵坐标为TPR真阳率；ROC曲线上每一个点代表一个阈值，遍历所有的阈值则得到ROC曲线；当阈值最大时，对应坐标点为(0,0)，阈值最小时，对应坐标点(1,1)；理想目标为：TPR＝1，FPR＝0，故ROC曲线越靠拢(0,1)点，越偏离45度对角线越好，True Positive Rate、Specificity越大效果越好；ROC曲线下的面积，介于0.1和1之间；AUC作为数值更加直观的评价分类器的好坏，值越大越好；

逻辑回归模型ROC曲线相较于网络模型的ROC曲线更加向(0,1)点靠拢，且偏离45度对角线更大；同时，网络模型AUC＝0.810逻辑回归模型AUC＝0.766，因此，判定网络模型具有更好的分类效果及更高的准确率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811292795.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种网络包分类算法与系统
下一篇：基于多通道残差神经网络的光伏电池外观缺陷分类方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于渗流分析的二元分类方法有效

专利文献下载