[发明专利]一种基于支持向量机的医疗影像检查疾病分类方法有效
| 申请号: | 201510242216.3 | 申请日: | 2015-05-12 |
| 公开(公告)号: | CN104834940A | 公开(公告)日: | 2015-08-12 |
| 发明(设计)人: | 何必仕;倪杭建;徐哲 | 申请(专利权)人: | 杭州电子科技大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 浙江杭州金通专利事务所有限公司 33100 | 代理人: | 王佳健 |
| 地址: | 310018 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 支持 向量 医疗 影像 检查 疾病 分类 方法 | ||
1.一种基于支持向量机的医疗影像检查疾病分类方法,其特征在于该方法包括以下步骤:
步骤1:首先对RIS数据库中的检查文本数据使用k-means聚类方法聚成十大类,聚成十个类别后,借助国际疾病类型分类标准ICD-10将这十个类别进行疾病类型编码;将编码后的十大类文本数据作为医疗影像疾病标准语料库,并以此作为分类的训练数据以及测试数据;
步骤2:从十大类检查文本数据中抽取其中一部分记录作为分类的训练模型,而将剩余的检查文本数据作为测试样本,用于检测分类模型的分类精度;文本分类使用支持向量机方法:
步骤3:针对检查文本分类过程中支持向量机分类器的建立过程进行优化;
使用训练样本完成支持向量机分类器的建立后,将剩余的样本作为测试样本来检测分类器的分类精度;在完成测试集的分类后,通过建立分类结果的混淆矩阵,来判断哪些检查文本被错分,找出这些错分的文本并将其加入到原属类别的训练样本中,以此来组成新的训练样本,最后再将新的训练样本通过步骤2来进行训练支持向量机分类器。
2.根据权利要求1所述的一种基于支持向量机的医疗影像检查疾病分类方法,其特征在于:步骤1中所述K-means聚类的具体步骤按照以下步骤来完成:
1)对选出的检查文本数据先进行预处理,主要对检查文本数据进行词性的标注,构成统计词典,对文本数据进行词条切分,并使用中文分词程序ICTCLAS完成分词;
2)建立检查文本数据的空间向量并降维;该步骤主要是将检查文本数据转化成计算机能识别的形式,采用空间向量模型来表示文本信息;由于生成的向量空间模型其维数一般都很大,需要经过稀疏降维处理;
3)检查文本数据聚类处理;采用平面划分的聚类过程如下:
(1)确定生成的簇的数目k;
(2)生成k个原始聚类中心S=(s1,s2,...,sn);
(3)对D中的每个文件di,依次计算与聚类中心S中sj的相似度sim(di,sj);
(4)从上面计算出的相似度中选出最大相似度,并将di归入到sj中;
(5)重复(3)、(4)两个步骤若干次,直到所有检查文本数据都完成聚类;
(6)将聚类完成的十个大类按照国际疾病分类标准ICD-10进行编码并确定其疾病类型。
3.根据权利要求1所述的一种基于支持向量机的医疗影像检查疾病分类方法,其特征在于:步骤2中向量机方法,其具体建立支持向量机分类器过程如下所示:
1)检查文本预处理;首先要对训练样本进行文本预处理,使用ICTCLAS汉语分词系统对训练样本进行分词处理;
2)检查文本表示;将上述预处理完成的文本转换成计算机能明白的形式,使用向量空间表示模型;其向量空间模型表示为V=(t1,w1;t2,w2;...;tn,wn),其中(t1,t2,...,tn)表示特征词条,(w1,w2,...,wn)表示特征词条对应的权重;
3)对检查文本中的特征词条进行降维处理,即特征选择处理;特征选择的使用互信息,首先计算出所有检查文本中特征词条与类别之间的互信息值,然后设定一个阈值,将大于该阈值的特征词条留下,而删除小于该阈值的特征词条;
4)支持向量机分类器的建立;构建支持向量机分类器方法最关键的是找出一个最优超平面将样本数据分为两类,最优超平面不仅能将两类正确分开,而且要使分类间距最大;当分类线性方程为g(x)=w·x+b,对它进行归一化处理使其满足|g(x)|≥1,当条件等于1的时候可以求得其分类间隔为2/||w||,要使分类间隔最大等价于||w||最小;转化为求解的最小值,针对该最优求解,引入Lagrange函数来解决该约束最优化问题,转化为目标函数:
由Lagrange极值定理可以求得最优解w*和b*(其中yi∈{+1,-1}正表示属于该类,负表示不属于该类);最后即可得到最优分类函数为:
如果f(x)大于0表示该样本属于yi类,小于0则表示不属于yi类;
5)构造多类SVM分类器;采用的是二叉树方法来构造;其主要思想是将第i类作为+1类,第i+1到i+n类为-1类,随着i的递增依次建立多个分类器即可;对待分类样本x时,从第一个分类器开始,如果大于0则表示属于第一类并停止决策,否则继续使用第二个分类器,以此类推直到判断出x所属类别为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510242216.3/1.html,转载请声明来源钻瓜专利网。





