[发明专利]一种个体癌症样本的生物标记物识别方法有效
申请号: | 201910973485.5 | 申请日: | 2019-10-14 |
公开(公告)号: | CN110675917B | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 李杰;王东;王亚东 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G16B25/10 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 刘景祥 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 个体 癌症 样本 生物 标记 识别 方法 | ||
1.一种个体癌症样本的生物标记物识别方法,其特征是:包括以下步骤:
步骤1:基于两种不同表型的样本数据确定差异表达成分,所述成分包括蛋白质、基因或者分子化合物,选取出q个差异表达成分;
步骤2:基于选取的q个差异表达成分,获得平均样本;
步骤3:构建基于平均样本和单体样本的回归模型,对样本进行回归预测,得到样本回归预测的结果;
步骤4:基于样本回归预测的结果和差异表达成分,确定单样本的生物标记成分;
所述步骤4具体为:
步骤4.1:在q个差异表达成分中,单个样本的某些成分的表达值显著地不同于平均值,差异的程度通过残差值进行量化表示,对于第i个样本标签为“+”的样本,其第j个差异表达成分的残差值通过如下公式计算:
对于第i个样本标签为“-”的样本,第j个差异表达成分的残差值通过如下公式计算:
其中,为第i个标签为“+”的样本进行回归预测的结果,y'ji表示第i个样本、样本标签为“+”的第j个差异表达成分的表达值,x'ji表示第i个样本、样本标签为“-”的第j个差异表达成分的表达值,为第i个标签为“-”的样本进行回归预测的结果;
步骤4.2:为了获得第i个样本标签为“+”的样本的生物标记物成分,通过高斯核密度估计算法估计残差值,所述高斯核进行核密度估计通过下式表示:
其中,为高斯核进行核密度估计结果,h是平滑因子,K是高斯核函数,ei为高斯核密度估计的自变量,x为高斯核函数自变量;
步骤4.3:通过φ得到残差值分布的在置信度为α下的置信区间,φ为所估计的核密度的累积分布函数,通过下式计算残差值分布的在置信度为α下的置信区间:
其中,CIα为残差值分布的在置信度为α下的置信区间;
步骤4.4:在得到CIα后,对于第i个样本标签为“+”的样本的第j个成分,当满足则第j个成分是第i个样本标签为“+”的样本的生物标记物成分;
对于标签为“-”的样本,当满足则第j个成分是第i个样本标签为“-”的样本的生物标记物成分。
2.根据权利要求1所述的一种个体癌症样本的生物标记物识别方法,其特征是:所述步骤1具体为:
选取两组不同表型的成分表达数据样本,分别使用“+”和“-”作为两组不同表型的成分表达数据样本的标签,n1和n2分别表示“+”和“-”两类样本的样本数;
采用yji表示第i个样本、样本标签为“+”的第j个成分的表达值,采用xji表示第i个样本、样本标签为“-”的第j个成分的表达值,基于yji和xji选取出q个差异表达成分。
3.根据权利要求1所述的一种个体癌症样本的生物标记物识别方法,其特征是:所述步骤2具体为:
步骤2.1:确定“+”和“-”两组样本的平均样本,通过下式表示所述两组样本的平均样本:
其中,u+和u-分别表示“+”和“-”两组样本的平均样本,为在“+”组中的第q个成分的平均表达值,为“-”组中的第q个成分的平均表达值;
步骤2.2:根据第i个样本标签为“+”的样本的第j个成分的表达值和第i个样本标签为“-”的第j个成分的表达值,来确定在“+”组和“-”组的第j个成分的平均表达值,通过下式确定在“+”组和“-”组的第j个成分的平均表达值:
其中,为“+”组的第j个成分的平均表达值,为“-”组的第j个成分的平均表达值,n1和n2分别表示“+”和“-”两类样本的样本数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910973485.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种睡眠异常保护的方法及装置
- 下一篇:一种沉铁过程出口离子预测方法及其系统