[发明专利]利用起源组织阈值的癌症分类在审
| 申请号: | 202080086135.8 | 申请日: | 2020-10-09 |
| 公开(公告)号: | CN114868191A | 公开(公告)日: | 2022-08-05 |
| 发明(设计)人: | 刘勤文;O·C·维恩;S·S·格罗斯;R·A·P·卡列夫 | 申请(专利权)人: | 格瑞尔有限责任公司 |
| 主分类号: | G16B40/20 | 分类号: | G16B40/20;G16H50/20 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 董莘 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 利用 起源 组织 阈值 癌症 分类 | ||
公开了用于检测癌症和/或确定癌症起源组织的方法和系统。在一些实施例中,公开了一种多类癌症分类器,其用包含cfDNA片段的多个生物样本进行训练。分析系统得到每个样本的特征向量,并且多类分类器预测多个起源组织(TOO)类别中的每个起源组织的概率似然性。在一些实施例中,多个TOO类别包括血液亚类,包括血液恶性肿瘤和前体病症两者。在一个实施例中,具有高组织信号的非癌症样本从训练样本集中被剪除。在另一实施例中,分析系统根据组织信号对样本进行分层,并应用为每个层确定的二元截断阈值。
背景技术
脱氧核糖核酸(DNA)甲基化在调节基因表达中起重要作用。异常的DNA甲基化与包括癌症的许多疾病过程有牵连。使用甲基化测序(例如全基因组亚硫酸氢盐测序(WGBS))的DNA甲基化分析越来越被认为是癌症的检测、诊断和/或监测的有价值的诊断工具。例如差异甲基化区域的特定模式和/或等位基因特异性甲基化模式可用作使用循环无细胞(cf)DNA进行非侵入性诊断的分子标签。然而,本领域仍然需要用于分析来自无细胞DNA的甲基化测序数据的改进方法,用于诸如癌症的疾病的检测、诊断和/或监测。
发明内容
早期检测受试者的疾病状态(诸如癌症)是重要的,因为它允许早期治疗并因此有更大的存活机会。无细胞(cf)DNA样本中DNA片段的测序可用于标识可用于疾病分类的特征。例如在癌症评估中,来自血液样本的基于游离DNA的特征(例如是否存在体细胞变异、甲基化状态或其他遗传异常)可以提供对受试者是否可能患有癌症的洞察力,并进一步对受试者可能患有哪种癌症的洞察力。为此,本描述包括用于分析无细胞DNA测序数据以确定受试者患疾病的似然性的系统和方法。
分析系统处理来自多个样本(例如多个癌症和非癌症样本)的大量测序数据以标识随后用于癌症分类的特征。借助测序数据,分析系统能够训练和部署癌症分类器,以便为测试样本生成癌症预测。
关于使用哪些训练样本来训练癌症分类器,分析使用已经被标识并标记为具有一种或多种癌症类型的训练样本,以及作为来自被标记为非癌症的健康个体的训练样本。每个训练样本都包含一组片段。对于每个训练样本,分析系统例如通过为每个标识的特征分配得分来生成特征向量。分析系统可以将训练样本分组成一组一个或多个训练样本,用于癌症分类器的迭代训练。分析系统将每组特征向量输入到癌症分类器中并调整癌症分类器中的分类参数,使得癌症分类器的函数基于特征向量和分类参数准确地预测集合中训练样本的标签。在对每组训练样本进行上述步骤迭代之后,癌症分类器就得到了充分的训练。
在部署期间,分析系统例如通过为每个测试样本的特征向量中的多个特征中的每一个分配得分,以与训练样本类似的方式生成测试样本的特征向量。然后分析系统将测试样本的特征向量输入到癌症分类器中,该分类器返回癌症预测。在一个实施例中,癌症分类器可以被配置为二元分类器以返回对患有或不患有癌症的似然性的癌症预测。在另一个实施例中,癌症分类器可以被配置为多类分类器以返回具有针对被分类的癌症类型的预测值的癌症预测。
本公开提供了用于检测癌症和/或确定癌症起源组织的方法和系统。在一些实施例中,本发明包括用于检测癌症的方法或系统,包括:接收包含cfDNA片段的多个生物样本的测序数据,所述生物样本包括癌症和非癌症样本;对于多个生物样本中的每个非癌症样本:基于源自测序数据的特征使用多类分类器对生物样本进行分类,其中多类分类器预测多个起源组织类别中的每一个的概率似然性,多个起源组织类别进一步包括一种或多种起源组织亚类类别;以及针对每个亚类类别来确定预测的概率似然性是否超过亚类切点,其中亚类切点指示亚类类别的特异性阈值;以及确定用于预测癌症的存在或不存在的截断阈值,该截断阈值基于对应于非癌症样本的概率得分分布确定,其中概率得分的分布不包括与一个或多个非癌症样本相关联的概率得分,其被标识为具有超过亚类切点的概率似然性。
在一些实施例中,概率得分的分布由二元分类器生成,该二元分类器对源自癌症和非癌症样本的训练样本进行训练。
在一些实施例中,将训练样本划分为多个交叉验证训练集并用于训练二元分类器以检测癌症的存在,其中二元分类器为每个训练样本产生指示存在或没有癌症的概率得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于格瑞尔有限责任公司,未经格瑞尔有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080086135.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于跨骑式车辆的储物容器
- 下一篇:带有升降组件的患者支撑





