[发明专利]使用基因组区域建模进行癌症分类在审
| 申请号: | 202180023008.8 | 申请日: | 2021-03-29 |
| 公开(公告)号: | CN115335533A | 公开(公告)日: | 2022-11-11 |
| 发明(设计)人: | 萨缪尔·S·格罗斯;约书亚·纽曼;弗吉尔·尼古拉 | 申请(专利权)人: | 格里尔公司 |
| 主分类号: | C12Q1/6869 | 分类号: | C12Q1/6869;C12Q1/6886;G16B20/00;G16B40/00;G16B40/20;G16H50/20 |
| 代理公司: | 深圳紫藤知识产权代理有限公司 44570 | 代理人: | 吕姝娟 |
| 地址: | 美国加*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 基因组 区域 建模 进行 癌症 分类 | ||
公开了多种用于检测癌症及/或确定癌症起源组织的方法及系统。片段被分成基因组区域,其中对每个基因组区域训练区域模型。片段输入到区域模型中,并且输出用于生成癌症分类的特征向量。在一个实施方案中,区域模型是浅层神经网络,配置为生成指示片段源自癌症生物样品的似然的分数。特征向量是基于具有高于各个基因组区域的阈值分数的片段的计数来确定的。在另一实施方案中,区域模型配置为生成用于片段的输入甲基化嵌入的区域嵌入。区域嵌入按区域池化(pool),然后再次池化以生成特征向量。
技术领域
背景技术
脱氧核糖核酸(DNA)甲基化在调节基因表达中起重要作用。异常的DNA甲基化与许多疾病过程有关,包括癌症。使用甲基化定序(例如,全基因组亚硫酸盐定序(whole genomebisulfite sequencing,WGBS))进行DNA甲基化分析逐渐被认为是检测、诊断及/或监测癌症的有价值的诊断工具。例如,差异甲基化区域的特定模式及/或等位基因特异性甲基化模式可用作使用循环游离(cell-free,cf)DNA进行非侵入性诊断的分子标记。然而,本领域仍然需要用于分析来自游离DNA的甲基化定序数据的改进方法,以用于检测、诊断及/或监测疾病,例如癌症。
本公开旨在解决上述这些挑战中的一个或多个。本文提供的背景描述是为了一般地呈现本公开的上下文。除非本文另有说明,否则本节中描述的材料不是本申请中权利要求的现有技术,也不允许通过包含在本节中而成为现有技术或现有技术的建议。
发明内容
早期检测对象的疾病状态(例如:癌症)是重要的,因为它允许早期治疗,并且因此有更大的存活机会。游离(cell-free,cf)DNA样品中DNA片段的定序可用于识别可用于疾病分类的特征。例如,在癌症评估中,来自血液样品的基于游离DNA的特征(例如存在或不存在体细胞变异、甲基化状态或是其他遗传异常)可以提供洞察对象是否可能患有癌症,以及进一步了解对象可能患有哪种类型的癌症以及癌症可能已经发展到什么阶段。为此,本说明书包括用于分析游离DNA定序数据以确定对象患病似然(likelihood)的系统及方法。此描述可以通过提供获得用于确定对象的癌症状态的特征的系统及方法来解决背景中确定的缺点。
分析系统可以处理来自多个样品(例如,多个癌症及非癌症样品)的大量定序数据,以识别随后用于癌症分类的特征。借助定序数据,分析系统可以训练及配置癌症分类器,以生成测试样品的癌症预测。癌症分类器可以是使用机器学习算法训练的机器学习模型。
分析系统可以在样品的特征化中实现每个基因组区域的建模。通常,癌症分类过程可以实现多个区域模型、特征化模块及癌症分类器。也可以实施甲基化嵌入模型并将其应用于cfDNA片段,以产生甲基化嵌入。每个区域模型可以应用于cfDNA片段,以产生癌症分数,指示cfDNA片段源自一癌症生物样品的一似然。选择性地或附加地,每个区域模型可以应用于cfDNA片段(或其甲基化嵌入),以产生区域嵌入。可以将特征化模块应用于区域模型的输出,并且为样品生成一特征向量。在区域模型输出是癌症分数的实施方案中,特征化模块可以通过计算每个基因组区域中超过针对基因组区域确定的一阈值分数的片段来产生特征。在区域模型输出是区域嵌入的实施方案中,特征化模块可以池化(pool)区域嵌入,以生成特征向量。池化可以包括两个池化步骤:第一池化步骤,池化区域嵌入,以生成每个基因组区域的一聚合区域向量,以及第二池化步骤,将基因组区域的聚合区域向量池化为特征向量。
甲基化嵌入模型、区域模型、特征化模块及癌症分类器可以是机器学习模型。因此,分析系统可以在训练癌症分类过程的每个组件时实施机器学习算法。例如,甲基化嵌入模型、区域模型、特征化模块及癌症分类器可以是神经网络、决策树、随机森林、回归、其他机器学习算法等。
分析系统可以使用训练样品训练癌症分类方法的组件。训练样品可以具有已知的癌症或是非癌症标记。此外,具有癌症的训练样品可以具有特定癌症类型的标记。分析系统可以独立或同时训练组件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于格里尔公司,未经格里尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180023008.8/2.html,转载请声明来源钻瓜专利网。





