[发明专利]癌症生存期预测方法、系统、终端及存储介质在审
申请号: | 202111512923.1 | 申请日: | 2021-12-11 |
公开(公告)号: | CN115579133A | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 林越;吴红艳;蔡云鹏;张睿;叶翔鹏 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G16H50/20;G06N3/08;G06N3/04 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 刘建伟 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 癌症 生存 预测 方法 系统 终端 存储 介质 | ||
1.一种癌症生存期预测方法,其特征在于,包括下述步骤:
获取癌症多组学数据;
对所述癌症多组学数据进行处理;
根据处理后的所述癌症多组学数据构建图自编码器训练框架;
根据所述自编码器训练框架构建自训练机制的K-means聚类;
根据所述自训练机制的K-means聚类训练得到的聚类结果即为预测得到癌症患者的生存期标签。
2.根据权利要求1所述的癌症生存期预测方法,其特征在于,在获取癌症多组学数据的步骤中,所述癌症多组学数据包括mRNA、RNA、甲基化、蛋白质四种不同的组学数据。
3.根据权利要求2所述的癌症生存期预测方法,其特征在于,在对所述癌症多组学数据进行处理的步骤中,具体包括下述步骤:
对每个组学数据的特征矩阵进行归一化,并为每个组学的特征矩阵通过KNN算法构建一个K-近邻图作为邻接矩阵;
k-近邻图中的每个顶点代表一个样本,对于每个顶点,在该顶点与跟它欧氏距离最近的K个顶点之间建立边,得到对应的邻接矩阵A(v),其中K的值设定为样本数除以聚类簇数;
对A(v)加上自环,即其中I为单位对角矩阵,v为组学的下标。
4.根据权利要求3所述的癌症生存期预测方法,其特征在于,在根据处理后的所述癌症多组学数据构建图自编码器训练框架的步骤中,具体包括下述步骤:
构建编码器,所述编码器采用两层自适应图卷积网络,输入所述特征矩阵X与所述邻接矩阵每一层自适应图卷积计算单元定义为GX=(I-ΘjkLsym)XW,其中Lsym为对称归一化的图拉普拉斯算子,其计算方式为其中D是的度数矩阵,其中W是一组可训练的权重,W初始化值需符合正态分布,Θ是自适应算子,用于调控图卷积学习不同频率的信息,Θ的值限定范围为0.2到0.7之间,所述编码器通过第一层图卷积网络计算得到嵌入表征Z(1)=G(1)X,加上高斯噪声扰动Z(1)=Z(1)+noise,其中noise符合高斯分布,其标准差置为0.1,所述编码器通过第二层自适应图卷积网络得到最终的表征Z(2)=G(2)X,对所有组学数据进行表征,得到Z=(Z(1),Z(2)...Z(υ)),υ代表组学数;
构建融合层,对所述编码器得到的所有组学的嵌入表征进行加权求和其中Wa是一组可训练的权重,Wa初始值为V为组学数,φ是激活函数ReLU,υ代表每一个组学的下标;
构建双解码器,所述解码器部分采用双解码器,分别为特征解码器与图解码器,所述特征解码器采用两层反向图卷积网络,其计算单元定义为:
其中特征解码器是重构得到特征矩阵,是加上自环的邻接矩阵,W0和W1都是是一组可训练权重,其初始值符合正态分布,ReLU是激活函数,V是组学数,
所述图解码器采用内积解码器,其计算单元定义为
其中为图解码器重构得到的邻接矩阵,sigmoid为激活函数,ZT为Z的转置,Wυ为一组可训练的权重,其初始值符合正态分布,V是组学数;
构建图自编码器的损失函数,所述图自编码器模型的损失函数分为邻接矩阵重构损失与特征矩阵重构损失,其中所述邻接矩阵重构损失Lr定义为
其中V代表组学数,为重构的邻接矩阵,是原始的邻接矩阵,Loss采用交叉熵损失函数,所述特征矩阵重构损失Lc采用均方误差,其计算方式定义为其中为重构的特征矩阵,X(v)为原始特征矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111512923.1/1.html,转载请声明来源钻瓜专利网。