[发明专利]一种基于支持向量机的专家系统知识获取方法有效

申请号：	201210505242.7	申请日：	2012-11-30
公开（公告）号：	CN103034691A	公开（公告）日：	2013-04-10
发明（设计）人：	李爱;陈果;王洪伟;郝腾飞;于明月;程小勇	申请（专利权）人：	南京航空航天大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06K9/62;G06N3/12
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	朱小兵
地址：	210016 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于支持向量专家系统知识获取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于支持向量机的专家系统知识获取方法，其特征在于，所述方法包括：数据预处理、支持向量聚类、超矩形规则提取和规则简化、以及基于规则的样本识别过程；具体描述如下:

步骤A,对不平衡样本进行数据预处理；判断各类样本的数目是否平衡，若不平衡，则采用SMOTE过抽样算法对少数类样本进行重采样，以使得各类样本数目平衡；其过程如下：

步骤A-1，对少数类中的每一个样本x，计算x到少数类样本集中每个样本的欧几里德距离，获得其k个最近邻，k为自然数；

步骤A-2，样本数据集中多数类与少数类样本数目的比值为不平衡比率U，根据U设置采样倍率；对每一个少数类样本x，从其k个最近邻中随机选择合适的一个样本为在x与之间进行随机线性插值；

步骤A-3，构造新的少数类样本x_new：

xnew=x+rand(0,1)×(x~-x)]]>

其中，rand(0,1)表示0到1之间的一个随机数；

步骤A-4，把人工合成的新样本与原始训练样本集并为一个新的训练集；

步骤B，利用遗传算法对特征维数大的样本，进行特征选取，其步骤为：

步骤B-1，二进制编码，二进制码中的每一位对应一个特征，对于二进制码中每一位的值，“0”表示特征未被选中；“1”表示特征被选中；

步骤B-2，生成初始群体，随机产生S个初始串构成初始种群，S表示种群数，S定义为自然数；

步骤B-3，计算个体适应度值，选取基于最近邻分类法的适应度函数，利用其分类识别率作为特征评价函数，其步骤为：

步骤B-3-1，将样本随机分为训练样本和测试样本集；

步骤B-3-2，对每一个特征组合初始串，去掉训练样本和测试样本中未被选中的特征，从而得到新的训练样本和测试样本集，运用最近邻法对测试样本进行识别，得到识别率R；

步骤B-3-3，考虑所选择的特征数目M，则构造适应度函数为：

J=R(1+Mn)]]>

由于0≤R≤1，因此，特征数M越小、识别率越大，则适应度函数J值越大，n为平衡特征数目和识别率权重的参数，0≤n≤1；

步骤B-4，在S个初始串中选择适应度最大的个体，即种群中最好的个体无条件地复制到下一代新种群中，然后对父代种群进行选择、交叉和变异遗传算子运算，从而繁殖出下一代新种群其它S-1个基因串；交叉和变异是产生新个体的遗传算子，交叉率取值范围为[0,1],变异率取值范围为[0,1]；

步骤B-5，如果达到设定的繁衍代数，返回最好的基因串，所述基因串中，1表示特征被选中，0表示特征未被选中，从而得到特征组合，算法结束；否则，回到步骤B-4继续下一代的繁衍；

步骤C，利用支持向量机聚类算法得到特征选取后样本的聚类分配矩阵，根据所述聚类分配矩阵构建超矩形规则；

步骤C-1，支持向量聚类SVC，其步骤如下

步骤C-1-1，特征空间中的一个样本点到其最小包含超球球心的距离为D(x_i)：

D(xi)=Σi,j=1NβiβjK(xi,xj)+K(xi,xi)-2Σj=1NK(xj,xi)βj]]>

其中，β_i≥0、β_j≥0，i∈[1,N]，j∈[1,N]；为N个样本点的数据集合，R^d为数据空间；K(x_i,x_j)＝exp(||x_i-x_j||²/q²)为高斯径向基核函数，q为高斯核参数；特征空间中样本最小包含超球半径可以写为β_i,β_j为任一支持向量，C是惩罚系数；

输入样本空间中包含数据样本点的聚类定义成集合：Ω={x|D(x)=R}；

步骤C-1-2，特征空间类簇的标识，聚类标识特征空间中的样本点；

构造一个邻接矩阵A：

如果在连接线上取10~20个采样点，只要他们都满足A_ij=1，即可认为D(y)≤R成立，找出邻接矩阵A表示的图中的连通部分，一个连通部分就表示一个聚类，对于那些只有一个元素的连通部分，标记为噪声；

步骤C-1-3，采用10折交叉验证的方法得到惩罚因子C和参数q；

步骤C-2，超矩形规则提取，每一类簇决定一个超矩形由类簇中各个属性的区间x1∈[x1L,x1U]∩···∩xi∈[xiL,xiU]∩···∩xN∈[xNL,xNU]]]>定义，x_i上标L表示下，x_i上标U表示上，即分别代表类簇中第i个属性的取值区间的最小值和最大值，L_j代表类标号；将投影到坐标轴上，得到如下的if-then规则

ifx1∈[x1L,x1U]∩···∩xi∈[xiL,xiU]∩···∩xN∈[xNL,xNU]]]>then class L_j

评价规则有效性的两个指标为：支持度和置信度；对于超矩形规则支持度和置信度取值方法如下：

conf.(Rj,Lj)=NHj,LjLjNHj,Lj]]>

supp.(Rj,Lj)=NHj,LjLjNLj]]>

其中，表示被超矩形覆盖并且类标号为L_j的样本数；表示被超矩形覆盖的样本数；表示类标号为L_j的样本数；

对于同时满足最小支持度阈值MST和最小置信度阈值MCT的规则，称为强规则；反之，则被判定是数据样本中的孤立点或噪声；

步骤D，采用规则合并、维数约简、区间延伸方法简化所述超矩形规则；

步骤D-1，所述规则合并是将距离比较近、支持度相对较小并且属于同一类的超矩形规则合并起来；同属于一类的两个不同超矩形，重叠程度越大表示两个超矩形距离越近，最小置信度阈值判断规则合并的有效性；

步骤D-2，规则约简包括区间延伸和维数归约；区间延伸即将由SVM生成的if-then规则中属性值的闭合区间转换为开区间；而维数归约，则是将规则前件中的某一维属性剔除；在规则约简中，同样采用最小置信度阈值进行判断，如果约简后规则的置信度小于最小置信度阈值，则取消规则约简；

步骤E，基于规则的样本识别过程，包括距离识别法和范围识别法；所述距离识别法即根据一个样本到其最近的超矩形规则的距离来确定其类标号；对每一个超矩形可以用其左下角和右上角来代表；空间中的样本X=(x₁,…,x_N)到超矩形的距离可以定义为：

D(X,Hj,Lj)=Σi=1N(wfi×(di(X,Hj,Lj))2)]]>

其中，w_fi是第i维属性的权，

di(X,Hj,Lj)=xi-Hupper,ij,Ljifxi>Hupper,ij,LjHlower,ij,Lj-xiifxi<Hlower,ij,Lj0otherwise]]>

其中，是的第ｉ个分量，是的第ｉ个分量；

所述范围识别法即根据规则的范围直接确定样本的类标号；对于每一个超矩形其规则范围为[xj1L,xj1U]∩···∩[xjiL,xjiU]∩···∩[xjNL,xjNU],]]>分别代表第j类样本x第i个分量x_i的取值区间；对于空间中的样本X=(x₁,…,x_N)，若x1∈[xj1L,xj1U]∩···∩xi∈[xjiL,xjiU]∩···∩xN∈[xjNL,xjNU],]]>则该样本属于第j类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京航空航天大学，未经南京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210505242.7/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于支持向量机的专家系统知识获取方法有效

专利文献下载