[发明专利]利用血浆游离核酸检测癌症的深度学习方法和系统有效
申请号: | 202110021990.7 | 申请日: | 2021-01-08 |
公开(公告)号: | CN112820407B | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 汪小我;李嘉琦;魏磊 | 申请(专利权)人: | 清华大学 |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G16H50/20;G16B20/20;G16B20/50;G16B20/30;G16B30/00;G16B40/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 李岩 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 血浆 游离 核酸 检测 癌症 深度 学习方法 系统 | ||
1.一种利用血浆游离核酸检测癌症的深度学习方法,其特征在于,包括以下步骤:
使用核酸分子级别分辨率的甲基化状态数据定义癌症特异的差异甲基化区间,并从所述差异甲基化区间筛选得到富集分子分辨率级别的信息;
使用深度学习模型整合所述信息中核酸分子的序列信息和甲基化信息,并根据整合后的信息预测核酸分子来源;以及
计算所述核酸分子来源的最大后验概率,根据所述最大后验概率估计血浆中来自癌症的核酸序列片段占比,以根据所述占比确定癌症的风险结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述占比确定癌症的风险结果,包括:
将所述占比作为似然值,根据所述似然值计算得到置信参数;
当所述置信参数最大时,将所述占比作为癌症的风险参数,以确定癌症的风险结果。
3.根据权利要求2所述的方法,其特征在于,
所述置信参数为:
其中,n为DNA片段的数量,pi表示使用深度学习模型估计第i条DNA片段来自于癌细胞的预测值,预测值与健康细胞的概率值为1-pi,r为所述占比;
所述风险参数为:
4.根据权利要求1所述的方法,其特征在于,还包括:
截掉训练集中每条序列第一段前预设部分和第二段预设数量碱基,并选用双核苷酸位点数大于等于预设值的单条读段,其中,训练集中健康血浆中DNA片段为第一标签、癌症实体瘤DNA片段为第二标签;
将每一个碱基转换成one-hot编码,并将DNA片段的甲基化信息转变成甲基化向量,根据两个所述甲基化向量拼接得到输入矩阵,以根据所述输入矩阵训练得到所述深度学习模型。
5.根据权利要求1所述的方法,其特征在于,所述使用核酸分子级别分辨率的甲基化状态数据定义癌症特异的差异甲基化区间,包括:
从待测区间中获取健康血浆样本和癌症实体瘤样本;
分别从所述健康血浆样本和所述癌症实体瘤样本中取出所有测序得到的DNA片段,以分别计算所述健康血浆样本和所述癌症实体瘤样本的甲基化率;
当所述健康血浆样本和所述癌症实体瘤样本之间的最大或最小甲基化率的差值大于差异阈值时,确定所述待测区间为所述差异甲基化区间。
6.一种利用血浆游离核酸检测癌症的深度学习系统,其特征在于,包括:
筛选模块,用于使用核酸分子级别分辨率的甲基化状态数据定义癌症特异的差异甲基化区间,并从所述差异甲基化区间筛选得到富集分子分辨率级别的信息;
预测模块,用于使用深度学习模型整合所述信息中核酸分子的序列信息和甲基化信息,并根据整合后的信息预测核酸分子来源;以及
诊断模块,用于计算所述核酸分子来源的最大后验概率,根据所述最大后验概率估计血浆中来自癌症的核酸序列片段占比,以根据所述占比确定癌症的风险结果。
7.根据权利要求6所述的系统,其特征在于,所述诊断模块进一步用于将所述占比作为似然值,根据所述似然值计算得到置信参数,当所述置信参数最大时,将所述占比作为癌症的风险参数,以确定癌症的风险结果。
8.根据权利要求7所述的系统,其特征在于,
所述置信参数为:
其中,n为DNA片段的数量,pi表示使用深度学习模型估计第i条DNA片段来自于癌细胞的预测值,预测值与健康细胞的概率值为1-pi,r为所述占比;
所述风险参数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110021990.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:天线组件及电子设备
- 下一篇:一种天然人造混合草皮及其制备方法