[发明专利]基于共表达相似性搭建肺腺癌早期诊断模型有效
申请号: | 201711223597.6 | 申请日: | 2017-11-29 |
公开(公告)号: | CN109841281B | 公开(公告)日: | 2023-09-29 |
发明(设计)人: | 赵杰;李砺锋;张超奇;薛文华;翟运开;范智蕊;张腾飞;丁显飞;宋晓琴;沈志博;马丙钧;朱子家;梁淑红 | 申请(专利权)人: | 郑州大学第一附属医院 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G16H50/30 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 高姗 |
地址: | 450001 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于肺腺癌预测技术领域,具体涉及一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法,其包括数据重塑及分组、数据标准化、phase特异性基因提取、基因共表达相关性分析、无监督聚类分析、特异性和非特异性共表达网络分析、功能通路富集、显著变异通路识别、REE算法筛选早筛标识基因、基于早筛风险基因建立分类模型和生存分析验证等步骤。本发明方法可以实现对肺癌的早期诊断,同时识别出伴随肺癌进展而显著发生动态变化的基因标识。 | ||
搜索关键词: | 基于 表达 相似性 搭建 腺癌 早期 诊断 模型 | ||
【主权项】:
1.一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法,其特征在于:包括以下步骤:(1)数据重塑及分组:首先对肺癌数据根据样本临床信息进行分组,每个样本临床分级信息分为phaseI、phaseII、phaseIII、phaseIV四组;(2)数据标准化:对数据进行标准化预处理,对于缺失值大于10%的基因和样本进行剔除,其余存在缺失值的样本用对应基因在其他样本中的均值进行替换,以正常对照control组作为对照组,计算每个基因在对照组中的均值和标准差,然后对所有样本实现Z‑score标准化,基因在对照组中的表达服从均值为0,方差为1的标准正态分布,因此若基因i在正常健康样本以及早期或中晚期的肺腺癌样本中不存在差异,则基因i的表达值应服从正态分布,否则认为基因i在早期或中晚期肺癌样本中相对于健康人群存在明显差异,这种差异表达基因可能成为肺腺癌早期诊断的标志物;(3)phase特异性基因提取:利用变异系数来评估基因在肺腺癌样本中的波动情况,变异系数通过公式1计算,
其中,mean为基因在所有肺腺癌样本中的表达均值,sd为对应的标准差,CV越大说明基因正向波动越显著,CV越小说明基因负向波动越显著,根据变异系数在所有基因中的分布,只筛选出变异系数在双尾25%的基因作为可能和肺腺癌相关的基因,剩下的50%基因则由于在0附近存在较小的波动,因此可以认为和肺腺癌不相关,为了识别在肺腺癌早期即发生差异表达的基因,利用limma算法对于基因在control组和earlyphase患者中的表达情况进行显著性评估,显著性阈值为0.05且|logfc|>1,识别出的早期肺腺癌相关基因标记为Δ0,同样的,为了识别出在中晚期发生差异表达的基因,对control组和late phase的肺腺癌样本进行比较分析,识别出中晚期肺腺癌相关基因标记为Δ1,而早期风险基因与中晚期风险基因的交集,则称为既能实现早期诊断肺腺癌的特征,又是伴随肺腺癌进展的重要临床指标,标记为Δ2;(4)基因共表达相关性分析:考察了在control,early phase,late phase三个状态下,早期风险基因Δ0和中晚期风险基因Δ1,以及交集基因Δ2的表达相关性,采用pearson相关系数,大于0.5的认为是正相关,低于‑0.5的认为是负相关;(5)无监督聚类分析:用相关性分析构建早期风险基因和中晚期风险基因的交集基因Δ2之间的相关系数矩阵,并利用层次聚类法实现对样本和基因的无监督聚类;(6)特异性和非特异性共表达网络分析:利用基因在control group、early phase、late phase三个阶段的共表达模式进行特异性网络构建,同时利用交集基因在所有样本中稳定的共表达关系构建非特异性网络;(7)功能通路富集:利用交集基因Δ2进行功能富集分析,分析方法采用Fisher精确检验,获得的显著通路则为这些交集基因参与调控的功能;(8)显著变异通路识别:假设我们利用交集基因通过富集共获得N个通路,首先识别每个通路基因库中差异表达的基因,利用逆累积分布函数将ANOVA的P值转化为Z值并乘上基因的权重,通路P中差异表达的基因Z值由公式计算出通路的偏差得分A(P),计算公式如下公式3所示:
计算过程中,首先将差异表达的基因Z值从大到小排序,Z值越大,基因的差异表达程度越高,假设通路P中包含k个差异表达基因,然后迭代的选取2个基因,3个基因….k个基因计算Z score均值,当迭代到第t步时(1<t<k),计算t个基因的Z score均值为最大值,则对应的t个基因对于通路P的贡献最大,计算出通路P在疾病状态下的偏差得分A(P);(9)REE算法筛选早筛标识基因:利用recursive featureelimination(RFE)算法对基因进行特征选择,最后筛选出显著的肺癌风险相关基因用于训练诊断预测模型;(10)基于早筛风险基因建立分类模型:利用有监督分类算法支持向量机(SVM)构建诊断分类模型,模型初始化参数包括核函数采用rbf非线性核,gamma为0,其他参数均采用默认参数,结合gridsearch进行参数优化,求解最优参数组合,并用五倍交叉验证绘制ROC曲线,评价模型分类效能;(11)生存分析验证:从TCGA数据库下载肺腺癌样本作为独立验证数据,并利用cox regression分析风险基因与肺腺癌样本overall survival整体生存期的相关性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州大学第一附属医院,未经郑州大学第一附属医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711223597.6/,转载请声明来源钻瓜专利网。