[发明专利]一种多重生存终端结果联合分析的方法有效
| 申请号: | 201910352169.6 | 申请日: | 2019-04-25 |
| 公开(公告)号: | CN110085324B | 公开(公告)日: | 2023-09-08 |
| 发明(设计)人: | 李嘉路;华芮 | 申请(专利权)人: | 深圳市华嘉生物智能科技有限公司 |
| 主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F18/2431;G06F18/2415 |
| 代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 谭穗平 |
| 地址: | 518067 广东省深圳市南山区招*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 多重 生存 终端 结果 联合 分析 方法 | ||
1.一种多重生存终端结果联合分析的方法,其特征在于五个环节,包括:
(1)构建节点复合分叉标准,以此整合二值类和生存时间类因变量的不纯度衡量方法;
(2)构建复合决策树,使用经根节点数据纠正的复合分叉标准,输出各类因变量的预测值;复合决策树分叉标准的构建中,采用纠正后不纯度的加权平均作为决策树的复合不纯度,公式如下:
其中,lnormW(k)代表决策树的复合不纯度,分别代表子节点k的二值类因变量和生存时间类因变量的不纯度,分别代表根节点k0的二值类因变量和生存时间类因变量的不纯度,最佳的权重a的值可经由训练数据的交叉验证选取,决策树中的复合分叉标准可定义为复合信息增益:
IG=(a)IGnorm,bin+(1-a)IGnorm,surv
信息增益定义为两代节点之间的不纯度差值,复合决策树的每次分叉应保证复合信息增益的相对最大化,IGnorm,bin为二值类终端增益,IGnorm,surv为生存时间终端增益;
(3)构建多重输出随机森林,采用置回式取样训练决策树和选取局部自变量分叉的方式,整合多棵相对独立的复合决策树,输出平均的预测风险率和反应率;
(4)使用置换检验和多重输出随机森林筛选重要的自变量;
(5)使用模拟实验比较验证使用多重输出随机森林的优势。
2.根据权利要求1所述的方法,其特征在于:节点复合分叉标准的构建中,使用负指数对数似然值作为二值类因变量的不纯度衡量法,公式如下:
其中,表示二值类终端结果,k节点中发生阳性反应的样本数量所占比例可计算为反应概率使用负指数对数似然值作为生存时间类因变量的不纯度衡量法,公式如下:
其中,表示生存时间终端结果,风险率DK和Yk分别代表k节点中发生事件总数和观察时间总和,nk表示样本数量。
3.根据权利要求1所述的方法,其特征在于:多重输出随机森林的构建中整合了多棵独立训练的复合决策树的预测结果,每棵决策树使用置回式取样所得数据训练,每次分叉只考虑随机选取的总自变量数开1/2次方的自变量,随机森林的输出为每一个测试样本的平均风险率和反应率。
4.根据权利要求1所述的方法,其特征在于:使用置换检验的方法处理待研究自变量,使用多重输出随机森林计算置换前和置换后两类因变量在包外数据中预测准确度发生的变化,此变化的平均值除以标准方差,所得数值作为待研究自变量的重要性评估结果。
5.根据权利要求1所述的方法,其特征在于:提出一个模拟数据生成的方法:从逻辑斯蒂回归模型中模拟生成二值类因变量数据,从中模拟生成生存时间随机变量,其中Wi是从均匀分布中模拟生成的随机变量,λ(t)由Cox比例风险模型生成:
其中,λ(t|Yi,Zi,γ)表示模拟生成的二值类因变量数据,Yi的值为1,λ0(t)表示生存时间因变量,γ(-1)表示生存时间类因变量的干扰自变量的系数矩阵,系数γ1控制二值类因变量对生存时间因变量的影响的大小,Zi是自变量矩阵。
6.根据权利要求1所述的方法,其特征在于:利用模拟实验数据比较验证多重输出随机森林预测及重要自变量筛选的准确度,对比方法有单因变量分析决策树、单因变量分析随机森林、复合决策树和多重输出随机森林,评估方式依因变量类型而定:二值类因变量采用AUC,即ROC曲线下的面积进行评估,生存时间类因变量采用C-index,即一致性指数进行评估。
7.根据权利要求1所述的方法,其特征在于:所述方法包括应用于临床试验的数据分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市华嘉生物智能科技有限公司,未经深圳市华嘉生物智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910352169.6/1.html,转载请声明来源钻瓜专利网。





