[发明专利]一种儿童脓毒性休克预后预测的建模方法及系统有效
申请号: | 201710661510.7 | 申请日: | 2017-08-04 |
公开(公告)号: | CN107480441B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 方芳 | 申请(专利权)人: | 方芳 |
主分类号: | G16H50/50 | 分类号: | G16H50/50 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 巩克栋 |
地址: | 215000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 儿童 毒性 休克 预后 预测 建模 方法 系统 | ||
本发明公开了一种基于支持向量机的儿童脓毒性休克预后预测的建模方法及系统。所述方法根据儿童脓毒性休克预后基因表达高通量数据进行特征筛选,对筛选出的多个特征采用支持向量机(SVM)算法建模,实现对儿童脓毒性休克的预后精准预测,对儿童脓毒性休克的临床预后预测提供分子水平的补充与支持。
技术领域
本发明属于生物信息学领域,涉及一种基于支持向量机的儿童脓毒性休克预后预测的建模方法及系统。
背景技术
脓毒症是一种具有高死亡率的炎症反应失调性疾病,儿童脓毒症也是全球儿童致死的一种重要诱因。脓毒性休克是脓毒症中最为严重的类型,因此,发展儿童脓毒性休克的预后预测技术显得尤为重要。目前,科研人员主要采用生物标记决策树模型进行儿童脓毒性休克的建模预测。然而,由于决策树算法可能会出现过拟合的问题,且忽略数据集中各属性之间的相关性,无法解决机器学习的问题,且大幅度提高了泛化错误率。
生物标记数据挖掘和计算机模拟对于发展高效的预测技术十分关键,擅长处理大规模、有噪声、但具有潜在价值的数据,现已成为多个研究领域中的强大技术手段。复杂疾病的数据挖掘和计算机模拟研究最初是基于变量间相互关系并采用逻辑回归技术和网络可视化技术进行的。近年来各种高通量技术的出现导致海量数据生成,各种复杂系统方法的使用也相应增加。其中,基于生物标记的支持向量机(SVM)机器学习算法可以实现高维、大规模数据的整合,具有泛化能力强等优点,可以解决样本量小、高维度、非线性等机器学习问题,并能降低泛化错误率,但目前尚未建立基于表达谱数据的儿童脓毒性休克预后SVM模型。
发明内容
针对上述问题,本发明提供一种基于支持向量机的儿童脓毒性休克预后预测的建模方法及系统,根据儿童脓毒性休克预后基因表达高通量数据进行特征筛选,对筛选出的多个特征采用支持向量机(SVM)算法建模,实现对儿童脓毒性休克的预后精准预测,对儿童脓毒性休克的临床预后预测提供分子水平的补充与支持。
第一方面,本发明提供一种基于支持向量机的儿童脓毒性休克预后预测的建模方法,包括以下步骤:
(1)在GEO(Gene Expression Omnibus)数据源内收集儿童脓毒性休克基因表达的高通量数据;
(2)对高通量数据依次进行预处理和数据汇总,得到预处理后数据;
(3)从预处理后数据中筛选出相对于存活组在死亡组中异常表达的基因,得到儿童脓毒性休克预后不良的异常表达基因数据集;
(4)对儿童脓毒性休克预后不良的异常表达基因数据集进行格式转换,形成训练生物标记数据集;
(5)对训练生物标记数据集进行特征筛选,选出使预测准确度达到最高的最少特征的集合,即用于模型构建的特征集合;
(6)使用步骤(5)所述特征集合和训练生物标记数据集,采用支持向量机(SVM)算法,使用R程序中的kernlab程序包构建儿童脓毒性休克预后预测模型。
GEO(Gene Expression Omnibus)数据源是归档和自由分发科研人员提交的高通量基因表达数据的公共仓库,存储了来自100多种生物的大约10亿单个基因表达的数据,网址是www.ncbi.nih.gov/geo。
支持向量机(SVM)算法的基本原理如下:
若给定一个训练样本集:(xi,yi),i=1,2,…,N,
其中,xi∈Rd,d是输入空间的维数,yi∈{-1,1}表示类别标号,N是训练样本数。则d维空间的线性判别函数一般形式为:
f(x)=wx+b,
分类平面的方程为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于方芳,未经方芳许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710661510.7/2.html,转载请声明来源钻瓜专利网。