[发明专利]一种病例数据的特征分类方法在审
| 申请号: | 202010277237.X | 申请日: | 2020-04-10 |
| 公开(公告)号: | CN111524605A | 公开(公告)日: | 2020-08-11 |
| 发明(设计)人: | 张果;赵鹤;付萍;王剑平;杨晓洪;车国霖;欧阳鑫 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G16H50/70 | 分类号: | G16H50/70;G06K9/62 |
| 代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 沈艳尼 |
| 地址: | 650093 云南省昆明*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 病例 数据 特征 分类 方法 | ||
1.一种病例数据的特征分类方法,其特征在于:包括如下步骤:
步骤S1、疾病数据的整理、随机抽样及预处理:将数据库数据进行整理,随机抽样获得数据集,接着将数据集中数据规范为统一格式;
步骤S2、数据降维:构建分类树对特征进行重要性评估来完成数据降维;
步骤S3、构建优化分类模型;
步骤S4、采用优化后的模型对样本进行分类。
2.根据权利要求1所述的病例数据的特征分类方法,其特征在于:所述步骤S1中的具体步骤为:
S1-1、将数据库中的数据进行有序整理、填补、删除,;
S1-2、从整理后的数据库中随机抽样获得数据集;
S1-3、将数据集中的数据归一化,从而规范为统一格式。
3.根据权利要求2所述的病例数据的特征分类方法,其特征在于:所述S1-3中,对数据集S利用数据标准化的方法将规范成统一格式的数据;所用方法为找出数字型数据中每列数据的最大值max和最小值min,将最大值max与最小值min做差记为δ,将此列的每个元素s减去所在列的最小值min后再除以δ,生成新的元素s’,用s’替换掉原来元素中的s,重新生成的数据集S中,每项元素的数据都被规范在0~1的范围内;
对于数据集S中字符型数据的诊断信息,将其转化为数值型数据;将患症的字符型数据变为数值型数据1,没有患症的字符型数据变为字符型数据0,生成数据集S1。
4.根据权利要求1所述的病例数据的特征分类方法,其特征在于:所述步骤S2中的具体步骤为:
将数据集随机分为训练集和测试集;
对训练集建立分类树进行特征重要性评估,所用方法为随机森林;
依照特征重要性得分,组成新的数据集。
5.根据权利要求1所述的病例数据的特征分类方法,其特征在于:所述步骤S3中:
按照SVM方法,由参数C和g得到的分类模型函数F(C,g)的最优解,最优的参数使分类效果更好;其中C是惩罚因子,表示SVM模型中对误差的宽容程度;g是核函数参数;具体步骤如下:
(1)设置初值X0,终值Xf,步长ΔX,确定惩罚因子C和核函数参数g的取值范围;
(2)在设置的范围内,根据函数F(C,g)找到最优的惩罚因子C和核函数参数g,其子步骤为:
1)在惩罚因子C和核函数参数g的取值范围取值,并代入函数F(C,g)中得出结果,比较F(n)(C,g)与F(max)(C,g)的大小;
2)F(n)(C,g)是每次搜索时的值;F(max)(C,g)是搜索时F(C,g)的最大值,其中的惩罚因子C和核函数参数g为当前搜索时的最优解;
3)若F(n)(C,g)F(max)(C,g),则用F(n)(C,g)中的惩罚因子C和核函数参数g分别替换F(max)(C,g)中的C和g,否则保持F(max)(C,g)中的惩罚因子C和核函数参数g不变;
4)若F(n)(C,g)F(max)(C,g),计算概率p=exp[-(F(n)(C,g)-F(max)(C,g)/X0],若prandom[0,1],则用F(n)(C,g)中的惩罚因子C和核函数参数g分别替换F(max)(C,g)中的C和g,否则保持F(max)(C,g)中的惩罚因子C和核函数参数g不变;
5)每搜索完一次,执行X0=X0-ΔX,直到X0Xf时搜索结束;
6)F(max)(C,g)中的惩罚因子C和核函数参数g为最优解,并与训练集训练SVM模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010277237.X/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





