[发明专利]基于机器学习的胃食管反流疾病危险因素确定方法及系统有效
| 申请号: | 201811589405.8 | 申请日: | 2018-12-25 |
| 公开(公告)号: | CN109686442B | 公开(公告)日: | 2020-04-14 |
| 发明(设计)人: | 刘万里;徐雷;黄玉珍;姚澜;李荣臻;夏吉安 | 申请(专利权)人: | 南京市中西医结合医院 |
| 主分类号: | G16H50/20 | 分类号: | G16H50/20 |
| 代理公司: | 北京高沃律师事务所 11569 | 代理人: | 杜阳阳 |
| 地址: | 210000 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 机器 学习 食管 疾病 危险 因素 确定 方法 系统 | ||
1.一种基于机器学习的胃食管反流疾病危险因素确定方法,其特征在于,所述方法,包括:
构建用户信息集;所述用户信息集为M行N列的数据集;所述用户信息集中的第i行第1列的因素为用户问卷ID号,且不同行中第1列的因素表示为不同的用户问卷ID号;所述用户信息集中的第1行第j列的因素为调查问卷的问题,且不同列中第1行的因素表示为不同的问题;所述用户信息集中的第i行第j列的因素为第i用户问卷ID号对第j问题的答案;其中,2≤i≤M,2≤j≤N;M表示参与调查问卷的所有用户的数量,N表示调查问卷中的所有问题的数量;
对所述用户信息集中的答案进行数据量化处理,得到量化数据矩阵;所述量化数据矩阵为M行N列的矩阵;所述量化数据矩阵中的第i行第1列的元素为用户问卷ID号,且不同行中第1列的元素表示为不同的用户问卷ID号;所述量化数据矩阵中的第1行第j列的元素为调查问卷的问题,且不同列中第1行的元素表示为不同的问题;所述量化数据矩阵中的第i行第j列的元素为第i用户问卷ID号第j问题答案的数据量化结果;其中,2≤i≤M,2≤j≤N;
对所述量化数据矩阵进行标准化处理,得到标准化数据矩阵;
采用主成分分析算法对所述标准化数据矩阵进行降维处理,并对降维后的数据矩阵进行重构处理,得到重构数据矩阵;
采用层次聚类算法,对所述重构数据矩阵中的每个样本点进行处理,得到层次聚类树状图;第z个所述样本点代表所述重构数据矩阵中的第z行数据;其中,2≤z≤M;
根据所述层次聚类树状图确定聚类数目,并根据所述聚类数目,采用聚类算法对所述重构数据矩阵中的元素进行聚类,得到多个类簇;
计算每个所述类簇中各个元素间的相关指数,并将相关指数最大的元素确定为胃食管反流疾病危险因素;所述相关指数为相关系数平方的平均数。
2.根据权利要求1所述的胃食管反流疾病危险因素确定方法,其特征在于,所述对所述量化数据矩阵进行标准化处理,得到标准化数据矩阵,具体包括:
采用Z-Score标准化算法,对所述量化数据矩阵进行标准化处理;所述标准化数据矩阵中每个维度的数据均服从均值为0、方差为1的正态分布。
3.根据权利要求1所述的胃食管反流疾病危险因素确定方法,其特征在于,所述采用主成分分析算法对所述标准化数据矩阵进行降维处理,具体包括:
计算所述标准化数据矩阵的相关矩阵;
根据所述相关矩阵,计算特征值以及所述特征值对应的特征向量;
将所述特征值按照降序顺序排列,选择前N个所述特征值对应的特征向量组成降维后的数据集。
4.根据权利要求1所述的胃食管反流疾病危险因素确定方法,其特征在于,所述采用层次聚类算法,对所述重构数据矩阵中的每个样本点进行处理,得到层次聚类树状图,具体包括:
步骤1,采用平均距离算法,计算两两样本点之间的距离;
步骤2,选择距离最小的两个样本点合成一个类;
步骤3,重复步骤1和步骤2,直到所有样本点聚为一类,得到层次聚类树状图。
5.根据权利要求1所述的胃食管反流疾病危险因素确定方法,其特征在于,所述计算每个所述类簇中各个元素间的相关指数,并将相关指数最大的元素确定为胃食管反流疾病危险因素,具体包括:
计算每个所述类簇中各个元素间的相关指数;
将所有所述相关指数按照从大到小的顺序排列,选择最大的相关指数对应的元素确定为胃食管反流疾病危险因素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京市中西医结合医院,未经南京市中西医结合医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811589405.8/1.html,转载请声明来源钻瓜专利网。





