[发明专利]一种基于支持向量机的医疗影像检查疾病分类方法有效

申请号：	201510242216.3	申请日：	2015-05-12
公开（公告）号：	CN104834940A	公开（公告）日：	2015-08-12
发明（设计）人：	何必仕;倪杭建;徐哲	申请（专利权）人：	杭州电子科技大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	浙江杭州金通专利事务所有限公司 33100	代理人：	王佳健
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于支持向量医疗影像检查疾病分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于支持向量机的医疗影像检查疾病分类方法，其特征在于该方法包括以下步骤：

步骤1：首先对RIS数据库中的检查文本数据使用k-means聚类方法聚成十大类，聚成十个类别后，借助国际疾病类型分类标准ICD-10将这十个类别进行疾病类型编码；将编码后的十大类文本数据作为医疗影像疾病标准语料库，并以此作为分类的训练数据以及测试数据；

步骤2：从十大类检查文本数据中抽取其中一部分记录作为分类的训练模型，而将剩余的检查文本数据作为测试样本，用于检测分类模型的分类精度；文本分类使用支持向量机方法：

步骤3：针对检查文本分类过程中支持向量机分类器的建立过程进行优化；

使用训练样本完成支持向量机分类器的建立后，将剩余的样本作为测试样本来检测分类器的分类精度；在完成测试集的分类后，通过建立分类结果的混淆矩阵，来判断哪些检查文本被错分，找出这些错分的文本并将其加入到原属类别的训练样本中，以此来组成新的训练样本，最后再将新的训练样本通过步骤2来进行训练支持向量机分类器。

2.根据权利要求1所述的一种基于支持向量机的医疗影像检查疾病分类方法，其特征在于：步骤1中所述K-means聚类的具体步骤按照以下步骤来完成：

1)对选出的检查文本数据先进行预处理，主要对检查文本数据进行词性的标注，构成统计词典，对文本数据进行词条切分，并使用中文分词程序ICTCLAS完成分词；

2)建立检查文本数据的空间向量并降维；该步骤主要是将检查文本数据转化成计算机能识别的形式，采用空间向量模型来表示文本信息；由于生成的向量空间模型其维数一般都很大，需要经过稀疏降维处理；

3)检查文本数据聚类处理；采用平面划分的聚类过程如下：

(1)确定生成的簇的数目k；

(2)生成k个原始聚类中心S＝(s₁,s₂,...,s_n)；

(3)对D中的每个文件d_i，依次计算与聚类中心S中s_j的相似度sim(d_i,s_j)；

(4)从上面计算出的相似度中选出最大相似度，并将d_i归入到s_j中；

(5)重复(3)、(4)两个步骤若干次，直到所有检查文本数据都完成聚类；

(6)将聚类完成的十个大类按照国际疾病分类标准ICD-10进行编码并确定其疾病类型。

3.根据权利要求1所述的一种基于支持向量机的医疗影像检查疾病分类方法，其特征在于：步骤2中向量机方法，其具体建立支持向量机分类器过程如下所示：

1)检查文本预处理；首先要对训练样本进行文本预处理，使用ICTCLAS汉语分词系统对训练样本进行分词处理；

2)检查文本表示；将上述预处理完成的文本转换成计算机能明白的形式，使用向量空间表示模型；其向量空间模型表示为V＝(t₁,w₁；t₂,w₂；...；t_n,w_n)，其中(t₁,t₂,...,t_n)表示特征词条，(w₁,w₂,...,w_n)表示特征词条对应的权重；

3)对检查文本中的特征词条进行降维处理，即特征选择处理；特征选择的使用互信息，首先计算出所有检查文本中特征词条与类别之间的互信息值，然后设定一个阈值，将大于该阈值的特征词条留下，而删除小于该阈值的特征词条；

4)支持向量机分类器的建立；构建支持向量机分类器方法最关键的是找出一个最优超平面将样本数据分为两类，最优超平面不仅能将两类正确分开，而且要使分类间距最大；当分类线性方程为g(x)＝w·x+b，对它进行归一化处理使其满足|g(x)|≥1，当条件等于1的时候可以求得其分类间隔为2/||w||，要使分类间隔最大等价于||w||最小；转化为求解的最小值，针对该最优求解，引入Lagrange函数来解决该约束最优化问题，转化为目标函数：

min L(w,b,αi)=12||w||2-Σi=1nαi[yi(w·xi+b)-1]---(1)]]>