[发明专利]一种基于机器学习的新冠肺炎数据处理方法及预测系统在审
申请号: | 202010332419.2 | 申请日: | 2020-04-24 |
公开(公告)号: | CN111524599A | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 樊俊青;曹元奎;李婕;陈云亮;刘传礼;杨红丽;芮法娟;张思敏;李建新 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G16H50/20;G06K9/62 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 杨采良 |
地址: | 430074 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 肺炎 数据处理 方法 预测 系统 | ||
1.一种新冠肺炎症状轻重预测系统,其特征在于,所述新冠肺炎症状轻重预测系统包括:
病例数据特征获取模块,用于对新冠肺炎的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
数据训练模块,对病例数据特征获取模块得到的特征数据以及原始病例数据中的症状情况数据组成样本数据,按比例分成训练数据和测试数据,并利用Naive Bayes方法在训练数据上进行训练;
新冠肺炎症状预测数据获取模块,对数据训练模块训练后数据进行测试,得到新冠肺炎症状预测数据,并与其他机器学习预测方法进行比较。
2.如权利要求1所述的新冠肺炎症状轻重预测系统,其特征在于,所述病例数据特征获取模块包括:
填充缺失值模块,用于对新冠肺炎的医学病例数据集中的部分缺失值使用气促、咳嗽、腹泻的表现症状数据以及血常规、肝功生化、凝血、血气的医学检测数据的平均值作为填充数据进行填充;
特征选择模块,用于计算每一属性与原始病例数据中的症状情况数据的Pearson系数,并取相关性大于0.2的属性作为训练数据的属性。
3.如权利要求1所述的新冠肺炎症状轻重预测系统,其特征在于,所述数据训练模块包括:
类别条件概率估计模块,通过计算各类别下每个特征属性的条件概率估计,得到每个类别下每个特征属性的条件概率估计;
特征属性条件概率估计模块,用于计算各类别下每个特征属性的条件概率估计;
类别条件概率计算模块,用于计算每个类别;
预测类别模块,用于概率值最大的类别即为预测样本的预测类别。
4.如权利要求1所述的新冠肺炎症状轻重预测系统,其特征在于,所述新冠肺炎症状预测数据获取模块包括:
测试模块,利用训练后的Naive Bayes预测方法在测试数据上进行测试,并计算精确率、TPR、TNR、FNR、FPR、准确率、标准差和方差作为评价指标;
预测结果比较模块,用于对KNN、XGB、MLP、DecisionTree机器学习预测方法得到的训练数据,与Naive Bayes方法的预测结果进行比较。
5.一种基于机器学习的新冠肺炎数据处理方法,其特征在于,所述基于机器学习的新冠肺炎数据处理方法包括以下步骤:
步骤一,对新冠肺炎的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
步骤二,采用步骤一得到的特征数据以及原始病例数据中的症状情况数据组成样本数据,按一定比例分成训练数据和测试数据,并利用Naive Bayes方法在训练数据上进行训练;
步骤三,利用测试数据对训练后的Naive Bayes预测方法进行测试,并与其他机器学习预测方法进行比较。
6.如权利要求5所述的基于机器学习的新冠肺炎数据处理方法,其特征在于,所述步骤一中,新冠肺炎的医学病例数据集的属性特征包括气促、咳嗽、腹泻的表现症状数据以及血常规、肝功生化、凝血、血气的医学检测数据;
所述填充缺失值的方法为:
对缺失值使用该属性的平均值作为填充数据进行填充;
所述Pearson相关系数的计算公式为:
所述特征选择的方法为:
计算每一属性与原始病例数据中的症状情况数据的Pearson系数,并取相关性大于0.2的属性作为训练数据的属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010332419.2/1.html,转载请声明来源钻瓜专利网。