[发明专利]一种机器学习糖尿病发病风险预测方法及应用在审
申请号: | 202110232859.5 | 申请日: | 2021-03-03 |
公开(公告)号: | CN112786204A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 房中则;刘永哲;高小茜;王婉莹;李欣 | 申请(专利权)人: | 天津医科大学 |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G16H50/70;G16H15/00;G06K9/62 |
代理公司: | 天津市杰盈专利代理有限公司 12207 | 代理人: | 朱红星 |
地址: | 300070 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器 学习 糖尿病 发病 风险 预测 方法 应用 | ||
本发明提供一种机器学习糖尿病发病风险预测方法。所述方法包括:数据获取模块:获取代谢组学数据;数据预处理模块:对获取的数据进行预处理;机器学习模块:以进行糖尿病风险预测为目的,基于机器学习算法和代谢组学数据,构建预测模型;显示输出模块:对所得到的待预测样本进行测试,并输出预测结果。预测结果为1表示有糖尿病患病风险,当结果为0表示没有糖尿病患病风险。应用本发明实施例,基于随机森林和支持向量机算法为主的技术,结合代谢组学特征,构建糖尿病风险预测模型。可用于提高决策效率,指导非医护人员进行疾病风险检测或辅助临床决策,实现疾病的三级预防和推动发展全民健康的目的。
技术领域
本发明属于一种使用机器学习算法构建模型并采用新型预测因子预测糖尿病发病风险的方法。
背景技术
疾病风险预测主要应用于辅助临床决策,辅助敏感性人群的健康检测,用于非医护人员检测疾病风险。
Ⅱ型糖尿病是内分泌科常见的代谢性疾病,占糖尿病患者的90%以上。目前,糖尿病风险的预测主要包括医护人员根据专业知识判断和使用传统危险因素构建的简单预测模型两种预测方式。通过医务人员的经验和自我学习对疾病进行判断是目前临床的主要手段,然而,医务人员对疾病进行判断存在主观差异性大,效率低等问题。基于传统的风险预测因子构建的简单预测模型,能够在一定程度上提高疾病预测效率,但目前简单预测模型的预测能力较低,敏感性和特异性较差,不能满足临床要求。传统的风险预测因子如性别、年龄、体质指数、空腹血糖、糖化血红蛋白、肌酐、总胆固醇、甘油三酸酯、高密度载脂蛋白胆固醇和低密度载脂蛋白胆固醇等,只能基于群体水平进行风险预测,不能提供个体水平的监测,常常造成个体的防治过度或防治不充分。
发明内容
本发明克服了医护人员风险预测的效率低,标准不统一,存在主观差异,以及简单预测模型的预测能力低,传统预测因子构建模型个体针对性差的问题。先进的人工智能算法与传统模型相比,在医学数据处理方面更具优越性。现实生活中,医疗信息繁多,传统统计方法构建的模型往往对数据的分布等存在要求,高维、非线性、交互作用等都使得传统线性回归模型不能很好地反映预测因子对疾病的预测能力。一项评估线性回归模型与机器学习模型对心血管疾病、糖尿病等的分类情况的比较研究显示,机器学习模型具有更高的准确率。除模型的选择外,基于疾病的多病因理论,本发明还使用了除传统危险因素以外的具有个体特异性的预测因子。
本发明的目的是提高决策效率,指导非医护人员进行疾病风险检测或辅助临床决策,实现疾病的三级预防和推动发展全民健康。为实现上述目的,本发明公开了如下的技术内容:
1. 一种机器学习糖尿病发病风险预测方法,其特征在于包括数据获取模块、数据预处理模块、机器学习模块和显示输出模块,其中:
(1)数据获取模块连接医院数据库,用于获取医院数据库中2型糖尿病患者的临床病例数据,每个临床病例数据包括患者的代谢组学数据和对应的临床检验结果。
(2)数据预处理模块的输入端与数据获取模块的输出端连接,进行数据缺失值插补、抽样、标准化和删除近似零方差特征。使用随机森林模型进行数据缺失值插补;使用bootstrap进行数据抽样,目的是使样本数据中糖尿病患者和非糖尿病患者的数量相同;使用归一化和离散化处理进行数据标准化,目的是将患者代谢组学数据的度量单位和格式进行统一;删除近似零方差变量的目的是去除样本数据中的不平衡变量以得到稳定理想的模型。
(3)机器学习模块的输入端与数据预处理模块的输出端连接,该模块的结构如下:
① 数据集划分:使用bootstrap将样本数据重抽样为训练集和测试集,划分比例为2:1;
② 特征变量筛选:使用随机森林进行特征变量筛选;
③ 构建随机森林模型和支持向量机模型:根据筛选后的变量构建随机森林模型和支持向量机模型,使用N折交叉验证重抽样进行参数调整,选择最优模型;
④ 内部验证:使用最优随机森林模型和支持向量机模型对测试集进行内部验证。使用曲线下面积、假阳性率、假阴性率和准确率评估模型的预测能力;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津医科大学,未经天津医科大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110232859.5/2.html,转载请声明来源钻瓜专利网。